|
På baggrund af denne gennemgåede teori i kapitel 3 kan man prøve at foretage en kategorisering af de forskellige søgemaskiner på baggrund af deres forskellige karakteristika.
Den mest vigtige opdeling er sondringen mellem søgemaskiner (seach-engines) og kataloger (indexes ell. directories):
Søgemaskinerne er karakteriseret ved, at de automatisk indlæser web-sider, hvorefter disse web-sider indekseres i en central database. Der kan søges i databasen ved at udforme søgeudtryk, der matches op mod databasens indhold.
Katalogerne består derimod af et centralt indeks, hvori de forskellige web-sider/-sites er rubriceret efter emne og indhold. Denne rubricering sker i forskellige hierarkiske strukturer af samme slags som f.eks. bibliotekernes decimal system. Ofte er der udarbejdet en thesaurus, dvs. en hierarkisk struktureret ordliste, der er inddelt med hovedemne, der yderligere rekursivt inddeles i mere specialiserede underemner. Ved opslag i disse kataloger foretages der således ikke en direkte søgning ved hjælp af et søgeudtryk, der matches mod dokumenternes indhold, men man søger frem gennem den hierarkiske struktur efter det emne, der er interessant for en, hvorefter man bliver præsenteret for de dokumenter, der er blevet rubriceret under det pgl. emne.
Det kritiske element i katalogerne er dels selve opbygningen af strukturen og dels selve rubriceringen af de enkelte dokumenter. Rubriceringen af de enkelte dokumenter forudsætter, at dokumentet gennemlæses og derefter indekseres i kataloget efter faste og ensartede retningslinier, hvilket er meget kompliceret at automatisere og som oftest udføres af mennesker. Dette betyder en væsentlig mere tidskrævende proces end den automatiske indeksering med en web-robot, ligesom det er væsentlig mere omkostningskrævende (qua løn til indeksørerne). Det mest kendte katalog YAHOO! betjenes således af en stab på ca. 80 professionelle indeksører, der gennemlæser alle de anmeldte (submittede) sider og derefter rubricerer dem. Omvendt sikrer gennemlæsningen af alle siderne inden de optages i kataloget, at der er en mulighed for at foretage en kvalitetskontrol på sider. Dette betyder, at selv om der selv i de store kataloger findes henvisninger til langt færre web-sider end i de store søgemaskiner, så er den gennemsnitlige kvalitet ofte større i katalogerne. Endvidere betyder den på forhånd fastlagte strukturering, at både recall og præcison bliver meget god i katalogerne.
Søgemaskinerne kan man opdele i 2 hovedkategorier, nemlig 1) egenlige søgemaskiner og 2) metasøgemaskiner. De egentlige søgemaskiner er søgemaskiner, der selv forestår hele processen med indsamling af data, indeksering af disse data og opbygning af en database, samt besvarelse af brugerforespørgsler.
Metasøgemaskinerne er derimod søgemaskiner eller -tjenester, der ikke selv forestår indsamling og indeksering af data. De besvarer brugerforespørgsler ved at videresende søgeudtrykkene til andre egentlige søgemaskine, ganske som hvis det var en "almindelig" bruger, der brugte den pgl. egentlige søgemaskine. Metasøgemaskinerne vil typisk sende en forespørgsel videre til flere af de store søgemaskiner. Metasøgemaskinen vil herefter modtage søgeresultaterne fra de anvendte egentlige søgemaskiner, hvorefter metasøgemaskinen i et vist omfang selv kan bearbejde de indhentede søgeresultater.
Metasøgemaskinerne vil typisk sammeflette de forskellige søgeresultater til et samlet søgeresultat. I denne sammenfletning vil der ske en udskilning af "dubletter", dvs. flere forekomster af samme URL, ligesom metasøgemaskinen på baggrund af de enkelte egentlige søgemaskiners prioritering kan prøve at lave en egen prioritering.
Selvom metasøgemaskinerne kan distribuere en søgning til flere databaser og dermed i teorien kan dække en større del af det samlede antal dokumenter på WWW, viser praksis, at hverken recall eller præcision er større ved metasøgemaskinen, men ofte er lavere. Problemet for metasøgemaskinerne er for det første, at syntaksen for opbygningen af søgeudtryk er forskellig i de enkelte egentlige søgemaskiner, ligesom der er forskellige faciliteter i de forskellige søgemaskiner. Dermed er metasøgemaskinen nødt til at reformulere brugerens søgeudtryk i forhold til de enkelte søgemaskiner, som metasøgemaskinen bruger. Denne reformulering er vanskelig at foretage som en automatiseret proces og vil ofte ikke kunne udnytte de mere advancerede muligheder i søgemaskinerne. Dernæst vil metasøgemaskinen modtage en stor mængde søgeresultater retur, der er prioriterede og udfundet efter forskellige systemer og algoritmer. Endvidere kan forekommer forskellige forekomster af samme dokument i forskellige søgemaskiner mv. Da metasøgemaskinen ikke selv har haft adgang til web-siderne's kildetekst, har den ingen mulighed for selv at foretage en egentlig prioriteringsberegning, men kan kun prioritere på baggrund af de egentlige søgemaskiners prioritering.
En yderligere opdeling af søgemaskinerne kan ske på baggrund af søgemaskinerne's dækningsområde. Dækningsområdet kan f.eks. være
- hele World Wide Web
- være begrænset i forhold til et specialiseret emne/subjekt (som f.eks. jobs udbudt på WWW)
- være begrænset i forhold til et bestemt domæne (som f.eks. danske sider under domænet .dk)
Andre opdelinger af søgemaskinerne kan foretages på baggrund af de enkelte tekniske områder vedr. opbygningen af en søgemaskine. I appendiks D er vist analyse-skemaet, der blev brugt i en undersøgelse af søgemaskiner[5]. Det viser en meget detaljeret gennemgang og beskrivelse af søgemaskinerne. I praksis har det dog ikke den store betydning for brugerne, der ikke oplever forskellen som følge af disse tekniske forskelle, ligesom de fleste af disse detaljer ikke er offentlige tilgængelig.
|