[ekebjerg.dk]
Du er her: Home | Søgemaskiner | Søgemaskiner - kap. 1 Indledning
 

Søgemaskiner - kap. 1 Indledning Udskriv

(Download som pdf: Informationssøgning på World Wide Web)

Internettet oplever i disse år en eksplosionsagtig vækst, der særligt er koncentreret omkring internet-servicen World Wide Web (WWW). Fra at være udviklet som et informationssystem til distribuering af videnskabelige tekster ved CERN, er det udviklet til efterhånden at være den formentlig største informationssamling, der findes. Den eksakte størrelse af WWW er det ikke umiddelbart muligt at måle, men kvalificerede gæt lyder per d.d. på ca. 300 mill. web-sider og ca. 50 mill. servere . Da der er tale om en dynamisk størrelse, der formentlig ikke har nået et stabiliseret stade, er der tale om tal, der hele tiden ændre sig.

Ud over størrelsen er der et andet forhold, der er med til at adskille WWW fra stort set alle andre eksisterende informationssamlinger. Der tænkes her på det forhold, at WWW og hele dets informationsindhold er umiddelbart tilgængeligt. Hermed menes, at det er tilgængeligt for den almindelige bruger via hans personlige hjemme-pc'er og fra hans bopæl/arbejdsplads mv., ligesom langt størstedelen af informationerne på WWW stilles gratis til rådighed. (Med gratis menes, at der ikke direkte skal betales for informationerne - at man så muligvis betaler indirekte for dem via firmaernes reklamebudgetter, er en anden sag!). Modsætningen hertil vil for de fleste almindelige brugere (ved almindelige brugere forstås brugere, der ikke har særlige forudsætninger for at benytte WWW) være "almindelige" biblioteker (i modsætning til WWW), bøger, blade/aviser mv., der alle for-udsætter, at man aktivt skal bruge tid på at forlade hjemmet for at indhente informationerne, ligesom man ofte skal betale for de pgl. informationer. Den umiddelbare tilgængelighed af informationer på WWW, gør det ofte mere nærliggende at søge at få dækket sit informationsbehov her og nu.

De fundamentale problemer omkring informationsindsamlingen på WWW for den alminde-lige bruger, hænger imidlertid nøje sammen med den umiddelbare tilgængelig-hed, samt med størrelsen af informationsudbuddet. Hvor brugeren i de "traditionelle" systemer (biblioteket, boghandlen, avisen mv.) har mulighed for at trække på en fag-kundskab i sin informationssøgning, nemlig bibliotekaren, boghandleren mv. og hvor han får informationerne præsenteret på en redigeret vis - f.eks. via en redaktør - vil samme bruger ved informationssøgning på WWW i stort omfang være henvist til selv at forestå informationsindsamlingen. Der er således ikke indskudt et mellemled bestående af en sagkundskab mellem brugeren og WWW. Det næste problem som brugeren vil opleve ved informationsindsamling på WWW, vil være en overdådighed af informationer, der gør det vanskeligt at vurdere kvaliteten af de enkelte henvisninger. Den relevante information vil ofte "drukne" i støj af irrelevant information.

Disse problemer kan forventes at vokse i takt med, at WWW vokser. Problemerne vil endvidere blive mere aktualiserede i takt med, at der vil blive tilbudt flere nye tjenester på WWW. Her tænkes f.eks. på internethandel, på elektroniske aviser mv. Samtidig med at traditionelle systemer overgår til at være internet-baserede, vil disse systemer opleve, at de risikerer at "drukne" i informationsudbuddet på WWW. Dette kan tænkes at have 2 store konsekvenser: dels at internettet aldrig vil komme til at blive opfattet som et "seriøst" medie af hverken udbydere eller af brugere og dels at det vil blive svært at til-trække den kapital, der at nødvendig for at drive de forskellige web-sites. En stor del af WWW er i dag finansieret af reklamepenge, der naturligt forudsætter, at de forskellige reklamer bliver set af det relevante publikum. Hvis derfor de forskellige web-sites drukner i støj, vil det være svært at fastholde en fortsat reklamefinansiering.

For at imødekomme disse problemer er der på WWW udviklet forskellige søgetjenester, der skal hjælpe brugerne med at finde relevant information. I denne opgave fokuseres der kun på disse søgetjenester på WWW. Der ses således ikke på søgemulighederne på andre internetbaserede tjenester så som email adresser, på USENET eller i chat-rooms mv.

1.2 Problemformulering
Der findes flere forskellige metoder til informationssøgning på WWW, hvoraf kan nævnes:

  • "surfing", hvorved forstås en mere eller mindre tilfældig følgen af hyperlinks;
  • indlæsning af adresser fået fra reklame, fra faglitteratur, fra andre brugere osv., dvs. adresser, der fås fra andre medier end WWW selv;
  • brug af søgemaskiner på WWW, dvs. struktureret søgning på selve WWW efter informationer, der er tilgængelige på WWW.

Det er den sidste informationssøgningsmetode, der er emnet for denne rapport. For de fleste brugere vil søgemaskinerne være en meget vigtig kilde til informationssøgning på WWW, men vil ydermere fremtræde og fungere som en "black box". Ved en "black box" forstås en maskine, der fodres med et indput fra brugeren, hvorefter maskinen afleverer et output til samme bruger uden, at brugeren har nogen egentlig forståelse af, hvorledes og ud fra hvilke betingelse at maskinen genererer sit output. Dette er en problematisk situation i det omfang, at man er afhængig af at skulle finde alt information om et givent emne; at skulle finde den bedste information om et givent emne osv. I den situation, at man ikke har en forståelse for og indsigt i, hvorledes at WWW er blevet gennemsøgt, er det svært at bedømme en given søgning som f.eks. udtømmende, dækkende, relevant, korrekt formuleret osv.

Udgangspunktet for denne rapport er derfor:

  1. At beskrive de generelle problemer i forbindelse med informationssøgning og -formidling på et medie som WWW, og
  2. Beskrive hvorledes søgemaskinerne på WWW er konstrueret og implementeret.

Det endelige formål med rapporten er

  • at præsentere en beskrivelse af de forskellige elementer, der indgår i informationssøgning på WWW, og af de teknikker, der benyttes ved konstruktion af søgemaskinerne, samt
  • at undersøge om er muligt at få dækket ethvert informationsbehov fuldt ud ved søgning på WWW (selvfølgelig under forudsætning af, at der findes relevant materiale omkring det pgl. emne).

Der arbejdes ud fra en tese om, at den nuværende strukturering af WWW betyder dels, at muligheden for via søgning på WWW at finde relevant information omkring et givent emne er meget afhængig af, hvilken form for informationsbehov man har, og dels at det meget generelt formentlig ikke er muligt at foretage udtømmende og dækkende søgning omkring et givent emne.

1.3 Metode & Definitioner
Rapporten er bygget op omkring en samlet beskrivelse af forskellig kendt information omkring emnet. Der er indsamlet litteratur, der har udgangspunkt i informationssøgning og -formidling inden for biblioteksvæsnet; der har udgangspunkt i databaseteori; og der har udgangspunkt i internetforhold. Herud fra er der lavet en samlet beskrivelse af emnet. Der findes en del litteratur omkring brugen af de enkelte kendte søgemaskiner, men næsten ingen litteratur, der er samlet og i detaljer beskriver opbygningen af søgemaskinerne.

Den indsamlede litteratur er dels "traditionel" litteratur i form af bøger og fagtidskriftsartikler og dels forskellige on-line ressourcer.

I forbindelse med arbejdet med rapporten er der brugt en del tid on-line, der er gået med at foretage søgning efter materiale til rapporten. Disse erfaringer sammenholdt med min generelle EDB-viden og mine erfaringer fra arbejdet hos en af de større danske internetudbydere, indgår også som en del af beskrivelserne i rapporten bl.a. med hensyn til beskrivelsen af en søgemaskine.

Terminologien omkring internet og WWW er desværre ikke helt fast på dansk. Der er i rapporten benyttet følgende terminologi:

  • Web-site - i betydningen af en række sammenhængende sider, der alle har samme basisadresse, hvilket typisk er http://www.[navn].[domæne]. Andre kendte betegnelser er: Web-sted, Net-sted.
  • Web-side eller web-dokument - begge i betydningen en enkelt fil, der som oftest er en HTML-fil, der kan formateres og fremvises i en browser. Når der refereres til størrelsen af en web-side, menes der kun størrelse af selve (tekst-) filen, men ikke inkluderet evt. grafik og lignende, der er indlejret i HTML-koden. Begreberne web-side og web-dokument er anvendt vilkårligt i rapporten, uden at der er ment nogen meningsforskel. Andre kendte betegnelser er: Hjemmeside, homepage.

Litteraturhenvisninger er anført i teksten med følgende notation: [nr. jfr. litteraturlisten].