|
Overordnet set er WWW at sammenligne med alle andre informationsformidlingssystemer med hensyn til opbygning, funktion og aktører. Et informationssystems opgave handler dybest set om at opnå overensstemmelse mellem informationssøgerens og informationsudbyderne's begrebsapparater og vidensstrukturer.
Figur 1 - Forenklet model af informationsformidlingssystem

I fig. 1 er opstillet en forenklet model af informationssystemet WWW. På den ene side er der informationsudbyderne, der udbyder deres informationer i form af web-sider hovedsageligt bestående af tekstlig repræsentation. Den samlede mængde af web-sider, der udgører selve WWW, repræsenterer således også den samlede informationsmængde tilgængelig på WWW. På den anden side er der informationssøgeren / brugeren, der har et ønske om en bestem information, som han vil søge på WWW. Mellem informationsmængden på WWW og informationssøgeren er der et intermediært system. Det intermediære system består primært af en mapning af selve WWW ved hjælp af indeksering og/eller klassifikation. De intermediære systemer er opbygget med forskellige IR-teknikker (IR - Information Retrieval), dvs. med forskellige indekseringsformer, forskellige søgemuligheder mv., der er afgørende for, hvilke muligheder et konkret intermediært system tilbyder. I relation til WWW vil de intermediære systemer være de forskellige søgetjenester/-maskiner, der er til rådighed for brugerne.
Brugeren formulerer sin forespørgsel - benævnt en request - til det intermediære system. Det intermediære system reformulerer denne request til en forespørgsel (query) ud fra de strukturer, det er opbygget efter. Den reformulerede query kan herefter danne grundlag for en søgning i mapningen af WWW.
Enhver struktureret søgning forudsætter et intermediært system, hvorimod en ustruktureret søgning - der som oftest benævnes surfing, dvs. vilkårligt at følge links til man finder noget brugbart - ikke forudsætter et intermediært system, da brugeren herved arbejder direkte med og i WWW-siderne.
2.1: Informationsbehov og -formulering Der er udviklet flere forskellige teorier om, hvorledes et informationsbehov udvikles i den menneskelige hjerne. I Informationsformidling i Teori og Praksis[3] refereres til en hypotese, der beskriver 4 stadier, startende fra en problemsituation eller et ønske om tilfredsstillelse af et oplevelsesbehov og frem til en søgeformulering til det pgl. informationssystem - her WWW. De 4 stadier der er defineret i en sådan udviklingsproces er:
- Det ubestemte, umiddelbare behov (visceral need), der er uudtalt.
- Det beviste behov, hvor ønsket om informationer kan bestå af billeder, symboler
- Det formaliserede behov, hvor behovet kan beskrives sprogligt.
- Kompromis-behovet, dvs. ønsket om information præsenteret til formidler eller system.
Hypotesen beskriver således en udvikling hos den enkelte gående fra, at pgl. erkender, at hans verdensbillede ikke er tilstrækkelig til at beskrive/forklare et givet problem, men uden at pgl. kan nærmere bestemme informationsbehovet. I næste trin vil pgl. efterhånden være i stand til at visualisere sig selve informationsbehovet, men uden at være i stand til at beskrive dette sprogligt. Informationsbehovet erkendes via billeder og symboler. Denne erkendelse af et informationsbehov kan udvikles og bearbejdes hos den pgl., således at pgl. bliver i stand til at beskrive behovet sprogligt, hvilket danner grundlag for, at pgl. til sidst er i stand til at formulere ønsket og information til en formidler eller et system på formidlerens eller systemets præmisser, dvs. udfra pgl.'s opfattelse af, hvorledes behovet skal formuleres for formidleren eller systemet.
Det afgørende i denne hypotese er, at brugeren gennemgår flere stadier, inden pgl. er i stand til sprogligt at formulere sit behov. Ved erkendelsen og efterfølgende formuleringen af informationsbehovet sker dette ud fra den pgl.'s vidensstrukturer, dvs. pgl.'s viden eller model af verdenen. Det kognitive synspunkt omkring begrebet information er således, at der er tale om viden, der er nødvendig for at få et sammenhængende og fuldstændigt verdensbillede hos den enkelte. Informationsbehovet opstår således, når den pgl. kommer i en situation, hvor hans verdensbillede eller model af verden ikke længere er tilstrækkelig. Ved indhentelse og perception af ny information vil der ske en ændring/udvidelse af verdensbilledet og den indhentede information vil blive til viden hos den pgl. Man kan således skelne mellem information, der udbydes f.eks. på WWW, og så viden, der består af information, der erkendes/perceperes af den enkelte.
Den enkeltes vidensstruktur er nøje bestemt af det enkelte individs sociale og kollektive erfaringer og oplevelser, uddannelse, sproglige forhold, opvækst, religiøs overbevisning, etniske, geografiske og mange andre forhold. Vidensstrukturen er bestemmende for hele opfattelsen af verdenen og derigennem for formuleringen af de forskellige informationsbehov, der løbende opstår. Et trivielt eksempel på dette er de sproglige forhold, hvor det er evident, at en danskers og en russers formulering (på hver deres sprog) af det samme problem, vil være umiddelbart forskellig, idet sprogene ikke er identiske. Samme problemstilling vil dog være gældende også på andre ikke så umiddelbart synlige niveauer, hvis man f.eks. betragter 2 forskellige faggruppers formulering/ordvalg i forbindelse med identiske eller næsten identiske problemstillinger. Som eksempler kan man se på et ofte udskældt område, nemlig lægernes beskrivelser og ordvalg i forhold til lægmands tilsvarende beskrivelse og ordvalg; hvor lægen taler om fraktur taler lægmand om brud osv. osv. Man kan i den forbindelse også fremhæve, at en stor del af selve det at gennemgå en uddannelse består i at tilegne til det pgl. fags terminologi, således at man præcist er i stand til at formulere sig i forhold til sine fagfæller.
Denne problemstilling betegnes som the vocabulary problem: At det samme koncept i forskellige fagområder eller det samme koncept af forskellige personer beskrives med forskellige termer.
The vocabulary problem kan også beskrives som bl.a. en samling af følgende ordklasser:
- Synonymer - dvs. 2 forskellige ord, der har samme betydning (f.eks. mening og betydning, eller fraktur og brud);
- Akronymer - dvs. initialord (f.eks. RAM og Random Access Memory, eller CPU og Central Processing Unit);
- Homonymer - dvs. enslydende ord med forskellig betydning (f.eks. Pære (spisepære) og Pære (elektrisk pære) eller Løber (tæppe) og Løber (atletik-udøver));
- Antonymer - dvs. ord med modsat betydning, hvor negering af det ene ord giver samme mening som det andet (f.eks. hurtigt og langsomt, hvor "ikke hurtigt" som oftest vil have samme betydning som langsomt og omvendt).
Som beskrevet ovenfor kan man beskrive 4 stadier, der gennemløbes lineært i forbindelse med, at der opstår og erkendes et informationsbehov. Afgørende for, hvorledes pgl. kommer fra 1. til 4. stadie, er pgl.'s mulighed for at erkende sit behov. Det vil her være således, at jo tættere og mere relateret problemet er i forhold til pgl.'s vidensstruktur, jo nemmere og hurtigere vil det være at kunne formulere sit behov sprogligt og dermed kunne formulere sit kompromis-behov, dvs. formuleringen af informationsbehovet til systemet og på systemets betingelser. Omvendt er det sådan, at hvis der er tale om en problemstilling, der er meget fjern i forhold til pgl.'s nuværende vidensstruktur, kan det være svært eller ikke muligt uden hjælp at kunne formulere sit behov sprogligt. Processen, hvorigennem pgl. søger at nå frem til en sproglig formulering af dels hans behov og dels af hans kompromis-behov, er en interaktiv proces, der kan beskrives i følgende trin:
- Bruger er i en problemsituation eller har et mål som kræver en løsning.
- Brugers informationsadfærd udspringer af en erkendelse af utilstrækkelig viden i relation til problem eller mål.
- Bruger prøver at løse utilstrækkeligheden ved at søge information i et system.
- Præ-søge interaktion med menneskelig- eller computerformidler.
- Præ-søge formulering af søgestrategi og forespørgsel til system
- Søgeaktivitet
- Præliminær evaluering af søgeresultater
- Reformulering af problem/informationsbehov/forespørgsel/strategi
- Evaluering af fremfunden tekst (hvis til stede) af brugeren
- Brug af information
Når brugeren erkender at have et problem eller et mål (pkt. 1 og 2), er vedkommende i 1. eller 2. stadie. Han begynder derefter en interaktiv proces, idet han påbegynder en egentlig informationssøgning, der involverer interaktion med andre personer og systemer og en begyndende formulering af selve behovet (pkt. 3, 4 og 5). Herigennem opnås en mulighed for sproglig formulering af problemet, der kan udnyttes i selve søgningen (pkt. 6). Resultatet af søgningen vil blive evalueret og herigennem vil pgl.'s vidensstruktur blive ændret, hvorefter der er mulighed for en ændret formulering af informationsbehovet (pkt. 7, 8, 9 og 10). Processen vil herefter kunne starte forfra igen. Det betyder, at selve søgeprocessen kan ses som en interaktiv proces, hvor der konstant arbejdes med formuleringen af informationsbehovet.
2.2: Informationsbehovstyper Der kan opstilles forskellige typer af informationsbehov:
- Verifikativt informationsbehov, dvs. brugeren ønsker at verificere eller lokalisere bestemte kendte enheder. Der kan f.eks. være tale om, at brugerne ønsker at finde en specifik web-side, som han i forvejen ved eksisterer; eller ønsker at fremfinde materiale, der stammer fra en bestemt person eller lignende. Det karakteristiske ved dette informationsbehov er, at forskellige bibliografiske data så som f.eks. kilde, udgiver, firmanavn, titel, web-site eller lign. er kendt af brugeren. Brugeren har endvidere en fuldstændig begrebsmæssig viden omkring det pgl. område og er med sin vidensstruktur i stand til præcist at udtrykke den efterspurgte enhed. Brugeren er i 3. stadie, hvor han er i stand til sprogligt at formulere sit behov.
- Bevidst emneafgrænset informationsbehov, dvs. at brugeren ønsker at tydeliggøre, gense eller opfølge aspekter indenfor et af ham kendt emneområde. Pgl. har i forvejen en videnstruktur, der indeholder de begreber og termer, der er nødvendige for at kunne formulere behovet og efterfølgende for at kunne formulere en præcis forespørgsel til systemet. Også her er brugeren i 3. stadie.
- Mudret emneafgrænset informationsbehov, dvs. at brugeren ønsker at udforske nye begreber eller områder, hvor pgl.'s vidensstruktur ikke indeholder begreber og termer, der er nødvendige for præcist at kunne formulere behovet og området. Brugeren har derfor svært ved at formulere sit behov sprogligt og han vil befinde sig i 1. eller 2. stadie.
Ved alle 3 informationsbehovstyper gælder det, at erfaringen viser, at den sproglige formulering af informationsbehovet som oftest tager form af en etikette, dvs. af et eller af ganske få begreber, der ofte er ude af kontekst med det egentlige informationsbehov[3]. Tilsvarende erfaring er gjort i flere undersøgelser vedr. brugen af forskellige søgemaskiner på WWW, der alle viser, at størstedelen af alle forespørgsler består af 1 eller af ganske få ord med et gennemsnit på omkring 1,5 ord per søgning [11].
Etikette-effekten optræder i praksis under alle 3 informationsbehovstyper og er typisk en barriere-skabende faktor, der skal overvindes, da det sammenholdt med vocabular-problemet gør det vanskeligt at fortolke i hvilken kontekst, at etiketten skal forstås.
2.3: Informationsudbudet på World Wide Web Internettjenesten World Wide Web er på applikationslaget særligt bygget op omkring HTML-standarden (formateringssprog), der er ansvarlig for formateringen og fremvisningen af de forskellige web-sider, og af HTTP-protokollen, der er ansvarlig for udvekslingen af web-sider mellem brugerprogrammet og serveren. Af andre vigtige standarder i relation til informationssøgning på WWW skal endvidere nævnes standarden fastlagt i rfc1738: Uniform Ressource Locators, der er ansvarlig for syntaks og semantik i forbindelse med adresseringen af de enkelte internetressourcer.
Informationerne på WWW findes i form af hypertekst-dokumenter, der primært er bygget op om en tekstlig fremstilling, men som også tillader en integration af billeder, lyd og andre repræsentationsformer.
Hypertekst skal se i relation til en "almindelig/traditionel" tekstlig fremstilling. Almindelig traditionel tekst er bygget sekventielt op, således at teksten har et startpunkt, hvorfra læsningen af teksten starter, hvorefter det forudsættes, at man bevæger sig lineært frem gennem teksten, dvs. fra side 1 til side 2 til side 3 mv. Det betyder, at den traditionelle tekst indholdsmæssigt forudsætter, at man som læser følger denne i forvejen fastlagte rækkefølge.
Ved hypertekst har man brudt denne lineære fremstilling, dvs. hypertekst er nonsekventiel, hvilket indebærer, at der kan være flere forskellige forløb gennem teksten. Måden dette gøres på er ved hjælp af hyperlinks at definere den indbyrdes relation mellem 2 forskellige sider, forstået på den måde, at et hyperlink fra tekst A pegende til tekst B tillader MEN ikke forudsætter, at man på det pgl. punkt i tekst A kan springe til tekst B. Fra tekst B kan der så være tilsvarende hyperlinks mv.
 Figur 2 - Hypertekststruktur. Fig. 2 illustrerer en simpel hypertekst struktur, der viser, at læseren fra tekst A har en valgmulighed i forhold til at fortsætte på side B, D eller E, osv.
Sådanne hypertekststrukturer kan varieres stort set ubegrænset fra ganske simple strukturer til meget komplekse netværk.
Samtidig med, at informationerne på WWW er bygget op som hypertekst-dokumenter, er de endvidere bygget op som hypermedier (ell. multimedie hypertekst), hvilket betyder, at der er mulighed for på en for brugeren transparent måde at integrere forskellige medier, hvilket i relation til WWW primært er tekst og billeder, men som også kan omfatte lyd, video, eksekverbare programmer (java-applets/-scripts, Active X, VB-scripts mv.).
Ved opbygningen af et hypertekstdokument vil selve det samlede dokument således komme til at bestå af flere enkeltstående sider, der så er indbyrdes er linket sammen og hvor hver side på WWW består af en separat fil. Ved vurderingen af informationsindholdet af en web-side, der er en del af et samlet hypertekstdokument er man nødt til at tage højde for, at informationsindholdet kan være spredt ud over flere sider. Det kan beskrives på følgende måde: Den samlede informationsmængde af et hypertekst objekt består dels af dets tekstmæssige indhold, men også af en yderligere information, der består i de hyperlinks, der på samme side tillader brugeren via sin browser at få direkte adgang til yderligere information - i form af andre web-objekter - om samme eller relateret emne. Ligning 1:
 hvor Info(A) = Den samlede informationsmængde af web-objektet A; TextInfo(A) = Den tekstmæssige informationsmængde af web-objektet A og HyperInfo(A) = Den dynamiske informationsmængde givet i web-objektet A via de i objektet værende hyperlinks[7].
Antag en web-side (A), der omhandler hunde. På A er der 2 links, der henholdsvis peger på til web-siden B, der omhandler fodring af hunde og C, der omhandler pelspleje af hunde. Ordene fordring og pelspleje er på side A kun nævnt hver 1 gang. Det er her umiddelbart indlysende, at informationsindholdet af web-siden A f.eks. med hensyn til fordring af hunde er større end det blotte at ordet fordring er nævnt 1 gang. Man kan sige, at hypertekst dokumenterne er distribuerede dokumenter, idet man ved vurderingen af informationsindholdet af en enkelt web-side/hypertekstside er nødt til at foretage en samlet betragtning af informationsindholdet dels af den enkelte side og dels af informationsindholdet i de henvisninger, der er på siden.
Derfor er man ofte nødt til at tale om informationsindholdet af en hel web-site i modsætning til informationsindholdet af en enkelt web-side, da de enkelte web-sider ofte ikke har nogen reel mening som enkeltstående sider.
I forhold til traditionel hypertekst skal man endvidere tage højde for, at WWW i sin natur dels er dynamisk og dels er "ustabil". WWW er principielt at sammenligne med et enkelt stort hypertekst dokument, idet det på den enkelte web-side er muligt at oprette links til web-sider på andre serverer og som er forfattet og vedligeholdt af andre personer. Den enkelte forfatter har herved ikke fuld kontrol over "hele" sit dokument, dvs. har ikke kontrol over tilstedeværelsen og/eller indholdet af de dokumenter, som der oprettes links til. Det giver anledning til 2 store fejlmuligheder:
- Links/henvisninger i en web-side bliver ugyldig, idet det henviste dokument ikke længere eksisterer, uden at det pgl. link bliver slettet eller rettet. Herved bliver hyperinfomationsindholdet af den pgl. web-side nærmest negativ, idet der ikke længere er tale om troværdig information. Situationen kaldes også et dangling link.
- Det tekstmæssige indhold af en web-side, hvortil der refereres bliver ændret efter at henvisningen til siden er oprettet. I ovenstående eksempel med hunde-siderne, kan man forestille sig, at fodringssiden ændres til at omhandle fodring af katte i stedet for fodring af hunde, uden at link'ningen til siden fra hunde-siden ændres. Også her vil hyperinformationen i henvisningen blive negativ, da der her vil blive tale om unyttig/ubrugelig eller i værste fald fejlagtig information.
2.3.1: HTML De enkelte hypertekstdokumenter/web-sider på WWW findes primært i form af HTML-sider (Hyper Text Markup Language). HTML er en standard, der er lavet med følgende primære formål for øje:
- at kunne forestå en ensartet formattering af web-sider på tværs af forskellige platforme;
- at kunne oprette og bruge hyperlinks/henvisninger til andre web-objekter (så som web-sider, billeder, lydfiler, videoklip mv.).
Basis-syntaksen og de semantiske regler for HTML er defineret i HTML-standarden, der bliver vedligeholdt og udviklet via World Wide Web Consortium (W3C), der udgiver standarder og nye proposals. Den mest udbredte standard i dag er HTML 3.2, men den er i færd med at blive afløst af HTML 4.0.
HTML er dog ingen "fast" defineret standard, idet der i standarden er åbnet mulighed for, at der kan defineres tags, der ikke er en del af den "officielle" standard. Det har betydet, at de store producenter af browsere (Microsoft og Netscape) hver især har udviklet tilføjelser til HTML-standarden, som kun understøttes af deres egne produkter.
Som nævnt er HTML koncentreret omkring selve præsentationen af layoutet samt omkring definitionen af hyperlinks. HTML består af en samling af "tags", der er af formen <tegn>tekst</tegn>. Tekst, hvori tags'ene er indeholdt, er almindelig ASCII-tekst, således at selve HTML-dokumentet bliver en ren ASCII-tekst side. Denne side læses af klient-programmet (browseren), hvorefter browseren formaterer siden efter de tags, der er indsat i dokumentet.
Links til andre web-objekter oprettes på lignende måde med tags af formen <a href=http://www.microsoft.com/>tekst</a href>. Dette vil fremtræde, således at det er tydeligt, at ordet tekst er et hyperlink til en anden web-side. Denne side kan herefter hentes - typisk ved at man klikker på den markerede tekst.
Tags, der optræder i en tekst og som fremtræder som tags (dvs. <tegn>), men som ikke er en del af den officielle definition, bliver som udgangspunkt bare overset, hvis ikke producenten af den pgl. browser vælger at bruge den information, der er indeholdt i det pgl. tag.
HTML-dokumenterne på WWW er som udgangspunkt statiske, forstået på den måde, at de ikke ændrer udseende/indhold, når først de er lagt op på serveren. De har dog en kraftig dynamisk natur forstået på 2 måder:
- Det forhold, at et dokument er tilgængeligt for hele WWW, lige så snart, at det er lagret på serveren gør det meget nemt at udgive tilføjelser/ændringer/nyheder mv. I praksis er en ændring af et allerede udgivet dokument tilgængeligt umiddelbart efter at dokumentet er ajourført. Derfor vil en stort del af siderne på WWW hele tiden ændre indhold, hvilket på mange måder er en af de store styrker ved udgivelse af information på WWW. Man kan derfor omtale WWW som en dynamisk størrelse.
- En del af den information, der i dag gøres tilgængelig på WWW, stammer fra forskellige databaser, der køres op mod WWW på den måde, at resultatet af en database-forespørgsel præsenteres som HTML-dokumenter, der genereres on-the-fly. Det betyder, at disse dokumenter kun eksistere i forbindelse med den aktuelle forespørgsel, men at de ikke eksisterer forinden forespørgslen, ligesom de ikke efterfølgende kan genskabes uden at gentage en identisk forespørgsel og under forudsætning af, at indholdet i databasen ikke er ændret. Et typisk eksempel er resultatet af en forespørgsel til en søgemaskine.
2.3.1.2: Metainformation HTML indeholder som udgangspunkt kun information om layout og om hyperlinks, men indeholder ingen meta-data, dvs. data omkring selve siden og dens indhold - så som information om forfatter, titel, abstrakts, nøgleord mv. Det er derfor som udgangspunkt ikke muligt i et HTML-dokument eksplicit at indeholde disse informationer uden, at de er en del af den tekst, der skal præsenteres på skærmen for brugeren.
For at muliggøre at man i et HTML-dokument kan indeholde sådan meta-information om selve dokumentet og dets indhold, har man forsøgt at indarbejde flere forskellige tilføjelser til den officielle HTML-standard.
Der er defineret en lang række forskellige META-tags, der alle har til formål at videregive META-information omkring det pgl. dokument. META-tags kan have 2 forskellige attributter:
- <META HTTP-EQUIV="name" CONTENT="content">
- <META NAME="name" CONTENT="content">
META-tags skal placeres i header-afsnittet af HTML-dokumentet, dvs. mellem <HEAD> og </HEAD> tags'ene. META-tags kan for så vidt frit opfindes, idet de i værste fald vil blive ignoreret af browserne, hvis browseren ikke kender tag'en. Derfor er der også blevet defineret en lang række af forskellige tags, der har vundet større eller mindre udbredelse.
Indholdet af meta-tags’ene vil ikke blive vist af browserne, men er kun indsat til brug for programmer – f.eks. søgemaskiner – der har behov for at få eksplicit angivet information omkring selve dokumentet, eller de enkelte browsere, der kan styres med hensyn til forskellige funktioner.
HTTP-EQUIV tags META-tags med en HTTP-EQUIV attribut er ækvivalent til HTTP-headers (se om disse i afsnit 2.3.3). Typisk bruges de til at styre forskellige funktioner i browserne - f.eks. at browseren skal genindlæse dokumentet efter et angivent tidsforløb. De virker derfor enten som en erstatning for eller som en ekstra refinering af selve den information, der videregives gennem HTTP-headeren. I nogle servere vil sådanne META-tags i et HTML-dokument blive behandlet af selve serveren, der vil oversætte dem til en aktuel HTTP-header.
HTTP-EQUIV tags kan selvfølgelig kun bruges i HTML-dokumenter, hvorfor det ofte er bedre at overføre de pgl. meta-informationer i en HTTP-header, dels fordi denne udover browsere også bliver forstået af cache agenter, proxie-servere, firewalls mv., og dels fordi man derved også kan tilnytte metadata til billedfiler, lydfiler, ikke HTML-dokumenter (postscript, pd. mv.).
I appendiks A er angivet de HTTP-EQUIV META-tags, der er almindelig kendt og brugt.
NAME attributter: META-tags med name-attributten bruges til at overføre META-information omkring web-siden, der ikke korresponderer til information, der kunne overføres med http-headeren. I appendiks B er angivet de META tags med name-attribut, der er almindeligt accepteret og brugt.
Udover de i appendiks B anførte tags, findes der en lang liste af forskellige META-tags, der er udviklet af forskellige firmaer til brug ved deres egne produkter. Disse tags er dog ikke almindelige i brug. En udførlig liste over META-tags kan findes på adressen: A Dictionary of HTML META Tags[8].
Ved flere af tags’ene – f.eks. dc.subject og dc.format – anbefales det, at der kun bruges ord fra kontrollerede ordlister for at få en ensartethed i beskrivelserne. Problemet med meta-data felterne er imidlertid dels at brugen af dem er valgfri og dels at der ikke er nogen syntaks-kontrol ved brug af dem. Det betyder, at f.eks. en søgemaskine ikke kan gå ud fra, at der er indeholdt meta-data beskrivelse i et givet dokument, ligesom man ikke umiddelbart kan gå ud fra, at indholdet af en meta-data beskrivelse er korrekt og dækkende.
Forskellige undersøgelser viser da også, at kun et begrænset antal web-sider i det hele taget gør brug af META-tags’ene og blandt de forskellige meta-data er det kun et lille udsnit, der bliver brugt. Der udføres jævnligt (kvartalsvist) analyser af brugen af META-tags[63], hvor der via en spider (web-robot) bliver indsamlet 40.000 forskellige web-sider fra kommercielle web-sites fra større amerikanske firmaer. Disse sider blev derefter undersøgt med hensyn til brugen af META-tags. Sidste undersøgelse fra april 1998 viste, at kun ca. 30% af siderne brugte META-tags samt at det stort set kun er tags'ene keywords og description, der bruges, idet henholdsvis 30% brugte keywords-tags og 27% brugte description-tags. Disse resultater er stort set identiske med de tidligere undersøgelser. Endvidere viste undersøgelse, at på 31% af de sider, der havde en description-tag, var indholdet af dette tags længere end 200-karakterer, hvilket er det almindeligt accepteret af søgemaskiner.
Dette betyder, at det derfor er svært umiddelbart af benytte teknikker kendt fra f.eks. biblioteksverden, hvor det er forudsat, at man har information omkring, hvem der er forfatter til et givet emne, hvor og hvornår det er udgivet mv. Heller ikke i selve transaktionen/overførslen af dokumenterne vha. http-protokellen udveksles der sådanne informationer - men kun omkring hvilken type ressource, der er tale om, samt evt. omkring dato, hvor dokumentet sidst er redigeret - omkring indhold af dokumenterne.
2.3.2 Andre formater HTML-dokumenterne er den alt dominerende standard på WWW, men der findes også en del andre formater.
For det første er der alle de ikke-tekstlige formater, dvs. billeder (typisk i formaterne GIF eller jpeg), lyd- eller videosekvenser mv. Disse ressourcer indlejres i HTML-dokumentet med tags, hvorefter de indgår i det layout, der præsenteres for brugeren.
I tags'ene anføres URL- adressen på ressourcen, hvorefter browseren selv indlæser det. For disse formater gælder det i dag, at hvis de ikke er yderligere beskrevet med meta-data tags indlejret i "hoveddokumentet" i form af såkaldt alternativ tekst, så er der ingen mulighed for søge på informationsindholdet f.eks. af et billede.
For det andet er der andre tekstlige formater udover HTML. De mest udbredte er PostScript (PS), Portable Document Format (PDF) og "ren" tekst (ASCII). Endelig findes der en del ressourcer, der er komprimeret – f.eks. i form af zip-filer.
2.3.3: HTTP WWW er bygget op som et client-server system baseret på HTTP-protokollen, der er defineret i rfc1945 (HTTP 1.0) og rfc2068 (HTTP1.1).
En HTTP transaktion forløber i hovedtræk på følgende måde:
- Klient-programmet - browseren - kontakter serveren, der konstant lytter på et designeret port-nummer (default er port nr. 80), hvorefter der etableres en forbindelse. Klient-programmet sender derefter en header til serveren bestående af en http-kommando (metode), en URL-adresse samt et http-versionsnummer. Dette er den krævede minimumsinformation for at kunne gennemføre overførslen.
- Klient-programmet vil dog som oftest sende yderligere header-information til serveren. Det vil typisk være information om, hvilke data-formater, der accepteres mv. Klient-programmet afslutter sin header med en blank linie.
- Serveren svarer herefter på klient-programmets forespørgsel ved at sende en statuslinie retur. Statuslinien indeholder 3 felter: et http-versionsnummer, en statuskode og en tekstlig beskrivelse af statuskodens betydning.
- Hvis der er tale om en succesfuld overførsel, sender serveren derefter yderligere header information omkring selve serveren og om det dokument, der er blevet forespurgt. Headeren afslutter ligeledes sin header med en blank linie.
- Til sidst sendes sendes selve det forespurgte dokument til klient-programmet, der formater layoutet og præsenterer dokumentet for brugeren.
Klient-programmet kan specificere forskellige metoder i forbindelse klient-forespørgslen. Der er defineret følgende metoder:
| Metode-navn: | Beskrivelse: |
| GET |
Angiver en anmodning (request) fra et klient-program til serveren om at få returneret information, der er placeret på den i forespørgslen angivne adresse. Der kan være tale om en fil, output fra et program eller et CGI-script, der afvikles på serveren eller lignende. Serveren vil returnere en fuld header samt de data, der hidrører fra den angivne adresse. |
| HEAD |
Fungerer identisk med GET, bortset fra, at serveren kun returnerer header-information, dvs. der returneres ingen ting fra data-delen. |
| POST |
Tillader, at klient-programmet sender data med i sin request. |
| LINK |
Associerer ny header information til et dokument på serveren. |
| UNLINK |
Dissocierer header information fra et dokument på serveren. |
| PUT |
Anbringer et dokument på serveren. |
| DELETE |
Sletter et dokument på serveren. |
| OPTIONS |
Anmoder om information omkring kommunikationsmuligheder med serveren. |
| TRACE |
Bruges til debugging. |
Det er således muligt kun at anmode om header-information, der vil indeholde information omkring data og forbindelse mellem klient og server. Der kan således overføres information omkring hvilken type af data, som klienten vil modtage; om at klienten kun vil modtage et givet dokument, hvis det ikke er ændret siden af given dato o.lign. Der udveksles derimod ingen information omkring selve indholdet af de forskellige dokumenter.
2.3.4: URL Adresseringen af de forskellige ressourcer på WWW er fastlagt i rfc1738: Uniform Resource Locators. Adresseringen er bygget op omkring en angivelse af protokol, servernavn samt et fuldt filnavn. I filnavnet angives via den brugte extension, hvilken form for fil, der er tale om. Derudover er der ikke indeholdt information i URL-adressen omkring indholdet af den angivne internet-ressource.
2.4: Delkonklusion I kapitlet er redegjort for forståelsen af begrebet information, hvilket er det centrale begreb i forbindelse med en undersøgelse af informationssøgning. Der er ligeledes redegjort for forskellige forhold, som det er af afgørende betydning at tage højde for i forbindelse med informationssøgning på WWW, og som det er nødvendigt at inkorporere løsninger for i udformningen af søgemaskiner på WWW.
Der er tale om følgende forhold:
- Det er et krav, at brugeren kan formulere sit informationsbehov sprogligt. Det vil sige, at hans egen forståelse af eget informationsbehov skal være så stort, at han selv kan udtrykke det i relevante termer. Samtidig skal der ved den sproglige formulering af informationsbehovet tages højde for vocabular-problemet enten af brugeren selv eller af søgesystemerne.
- Selv efter overvindelse af kravet om sproglig formulering og af vocabular-problemet betyder etikette-problemet, at man kan forvente, at brugeren formulerer sig i generelle termer, der vil være ude af kontekst.
- Alene størrelsen af WWW betyder, at en given søgning ofte vil resultere i et meget stort antal henvisninger, som det som oftest ikke vil være praktisk muligt for brugeren selv at checke. Brugeren er derfor afhængig af, at der foretages en filtrering og en relevansvurdering af indholdet i de fremfundne dokumenter.
- Den dynamiske struktur af WWW betyder dels, at indholdet af WWW konstant ændrer sig, hvilket komplicerer opbygningen af ajourførte indekser og dels, at det ikke er muligt på forhånd at indeksere en stor del af WWW, nemlig de sider der genereres i forbindelse med selve forespørgslen.
- Hypertekst-strukturen af dokumenterne på WWW betyder, at det er nødvendigt at betragte informationsindholdet af de enkelte web-sider i sammenhæng med de links (henvisninger), der indlejret på siden og ikke som enkeltstående dokumenter uden relation med den øvrige del af WWW.
- Hypermediestrukturen af WWW betyder, at der er indlejret en del ikke-tekstlige ressourcer på de enkelte web-sider, hvilket bevirker, at de fremstår med et informationsindhold, der både hidrører fra den skrevne tekst, men også fra f.eks. billeder og lignende.
- Den manglende meta-information i HTML-dokumenterne betyder, at det umiddelbart er svært at klassificere dem.
De her beskrevne problemstillinger vil i stort omfang danne grundlaget for beskrivelsen af de eksisterende søgemaskiner, samt for gennemgangen af den teori, der ligger bag ved opbygningen af søgemaskinerne, da det i vid udstrækning er overvindelsen af de beskrevne problemer, der er bestemmende for udviklingen og for kvaliteten af søgemaskinerne.
|