|
Søgemaskiner - kap. 1 Indledning |
|
|
(Download som pdf: Informationssøgning på World Wide Web)
Internettet oplever i disse år en eksplosionsagtig vækst, der særligt er koncentreret omkring internet-servicen World Wide Web (WWW). Fra at være udviklet som et informationssystem til distribuering af videnskabelige tekster ved CERN, er det udviklet til efterhånden at være den formentlig største informationssamling, der findes. Den eksakte størrelse af WWW er det ikke umiddelbart muligt at måle, men kvalificerede gæt lyder per d.d. på ca. 300 mill. web-sider og ca. 50 mill. servere . Da der er tale om en dynamisk størrelse, der formentlig ikke har nået et stabiliseret stade, er der tale om tal, der hele tiden ændre sig.
|
|
Læs mere…
|
|
|
Søgemaskiner - kap. 2 Informationsformidling |
|
|
Overordnet set er WWW at sammenligne med alle andre informationsformidlingssystemer med hensyn til opbygning, funktion og aktører. Et informationssystems opgave handler dybest set om at opnå overensstemmelse mellem informationssøgerens og informationsudbyderne's begrebsapparater og vidensstrukturer.
Figur 1 - Forenklet model af informationsformidlingssystem

I fig. 1 er opstillet en forenklet model af informationssystemet WWW. På den ene side er der informationsudbyderne, der udbyder deres informationer i form af web-sider hovedsageligt bestående af tekstlig repræsentation. Den samlede mængde af web-sider, der udgører selve WWW, repræsenterer således også den samlede informationsmængde tilgængelig på WWW. På den anden side er der informationssøgeren / brugeren, der har et ønske om en bestem information, som han vil søge på WWW. Mellem informationsmængden på WWW og informationssøgeren er der et intermediært system. Det intermediære system består primært af en mapning af selve WWW ved hjælp af indeksering og/eller klassifikation. De intermediære systemer er opbygget med forskellige IR-teknikker (IR - Information Retrieval), dvs. med forskellige indekseringsformer, forskellige søgemuligheder mv., der er afgørende for, hvilke muligheder et konkret intermediært system tilbyder. I relation til WWW vil de intermediære systemer være de forskellige søgetjenester/-maskiner, der er til rådighed for brugerne.
|
|
Læs mere…
|
|
Søgemaskiner - kap. 3 Generel teori |
|
|
Et standard web-søgesystem kan beskrives som bestående af 2 hoveddele/-aktiviteter:
- Input, dvs. indsamling af data (web-sider) fra WWW og indeksering af disse ind i selve databasen over indekserede ord og URL-adresser.
- Output fra samme database, dvs. besvarelse af bruger-forespørgsler (request), samt en relevansvurdering (ranking/prioritering) af de fremfundne resultater. Dette indebærer også en præsentation af resultatet for brugeren.
Dette kan videre under-inddeles i flere kategorier og delfunktioner. I denne rapport er valgt en opdeling, der er brugt af professor T. Koch, Lunds Universitet i forbindelse med en undersøgelse fra 1996 omkring den daværende status omkring søgemaskiner[5].
Ved denne undersøgelse er valgt følgende delelementer:
- Size
- Coverage
- Actualisation
- Haresting
- Indexing
- Result display
- Retrieval
- User interface
Da dette vurderes som værende en hensigtsmæssig opdeling, vil denne opdeling også blive fulgt i denne rapport til den teoretiske beskrivelse.
|
|
Læs mere…
|
|
Søgemaskiner - kap. 4 Kategorisering af søgemaskiner |
|
|
På baggrund af denne gennemgåede teori i kapitel 3 kan man prøve at foretage en kategorisering af de forskellige søgemaskiner på baggrund af deres forskellige karakteristika.
Den mest vigtige opdeling er sondringen mellem søgemaskiner (seach-engines) og kataloger (indexes ell. directories):
Søgemaskinerne er karakteriseret ved, at de automatisk indlæser web-sider, hvorefter disse web-sider indekseres i en central database. Der kan søges i databasen ved at udforme søgeudtryk, der matches op mod databasens indhold.
Katalogerne består derimod af et centralt indeks, hvori de forskellige web-sider/-sites er rubriceret efter emne og indhold. Denne rubricering sker i forskellige hierarkiske strukturer af samme slags som f.eks. bibliotekernes decimal system. Ofte er der udarbejdet en thesaurus, dvs. en hierarkisk struktureret ordliste, der er inddelt med hovedemne, der yderligere rekursivt inddeles i mere specialiserede underemner. Ved opslag i disse kataloger foretages der således ikke en direkte søgning ved hjælp af et søgeudtryk, der matches mod dokumenternes indhold, men man søger frem gennem den hierarkiske struktur efter det emne, der er interessant for en, hvorefter man bliver præsenteret for de dokumenter, der er blevet rubriceret under det pgl. emne.
|
|
Læs mere…
|
|
Søgemaskiner - kap. 5 Beskrivelse af eksisterende søgemaskine |
|
|
I dette kapitel vil jeg give en beskrivelse af en af de kendte store søgemaskiner, nemlig AltaVista. Beskrivelsen er bygget op omkring et analyse-skema[5], der er nærmere beskrevet og gennemgået i appendiks D med hensyn til indholdet af de forskellige punkter. Analyse-skemaet er valgt ud fra 2 grunde:
- dels er det meget detaljeret og sikrer derved en meget grundig gennemgang og beskrivelse af den valgte søgemaskine, og
- dels er analyse-skemaet det eneste kendte og umiddelbart tilgængelige skema, der har været brugt til en større samlet beskrivelse af kendte søgemaskiner.
Beskrivelsen bygger dels på egne erfaringer med søgemaskinen (ikke mindst i forbindelse med denne rapport) og dels på forskellige offentlige kilder, og heriblandt søgemaskinens egne oplysninger, der er indsamlet i forbindelse med udarbejdelsen af denne rapport.
|
|
Læs mere…
|
|
Søgemaskiner - kap. 6 Konklusion |
|
|
I rapporten er beskrevet dels de teoretiske problemer, der er i forbindelse med informationsformidling og -søgning, og dels hvorledes de p.t. eksisterende søgemaskiner er opbygget og implementeret og endelig hvorledes de p.t. kendte søgemaskiner prøver at overvinde de kendte problemer med informationsformidling og -søgning.
|
|
Læs mere…
|
|
|
|
|