[ekebjerg.dk]
Du er her: Home | Søgemaskiner | Søgemaskiner - kap. 6 Konklusion
 

Søgemaskiner - kap. 6 Konklusion Udskriv

I rapporten er beskrevet dels de teoretiske problemer, der er i forbindelse med informationsformidling og -søgning, og dels hvorledes de p.t. eksisterende søgemaskiner er opbygget og implementeret og endelig hvorledes de p.t. kendte søgemaskiner prøver at overvinde de kendte problemer med informationsformidling og -søgning.

Sammenfattende kan der uddrages følgende omkring de p.t. kendte offentlige søgemaskiner:

  • Alle kendte søgemaskiner arbejder med proprietære systemer, og har ikke givet nogen offentlig indsigt i, hvorledes deres systemer er opbygget og i særdeleshed hvorledes de foretager udvælgelse og prioritering af fremfundne web-sider. Det er dermed ikke muligt for brugerne eksplicit at vælge mellem maskiner med forskellig opbygning ud fra brugerens forestilling om, hvilken algoritme, der er mest anvende ved hans søgning.
  • Alle de kendte søgesystemer arbejder primært ud fra, at brugeren formulerer sit informationsbehov med få enkelte nøgleord eller enkelte sætninger. Såfremt en bruger ikke er i stand til at fremfinde relevante nøgleord, er det meget kompliceret/umulig at finde relevant information gennem søgemaskinerne.
  • WWW er allerede nu af en enorm størrelse uden, at der er tegn på, at væksten er stagnerende eller aftagende. Det betyder, at søgninger meget ofte vil returnere et uoverskueligt antal hits, hvilket gør det umuligt for brugeren selv at kontrollere indholdet af de enkelte web-sider/-sites.
  • Næsten alle søgemaskinerne arbejder med egne regler og muligheder med hensyn til formulering af søgeudtryk og søgemuligheder, hvilket gør det kompliceret at sprede et søgeudtryk til flere søgemaskiner.
  • Der findes ingen mulighed for at søge i dynamisk-genererede web-sider med mindre udbyderen selv opbygger egentlige web-sider alene med henblik på at tilfredsstille søgemaskinerne. Da dynamisk genererede sider repræsenterer en stor procentdel af WWW, betyder det, at selv i bedste fald er det kun en del af det samlede antal web-sider, der er indekserede.

Der arbejdes dog fortsat med at udvikle teknikker, der kan overvinde de skitserede problemer. Der er således ved at fremkomme systemer med følgende egenskaber:

  • For at overvinde vocabular-problemet og etikette-problemtet findes der allerede i dag systemer, der kan lave relevans-feedback i forhold til søgeresultater. Fremtidigt kan forventes systemer, der allerede i forbindelse med formuleringen af søgeudtryk og præcisering af informationsbehovet, kan hjælpe brugeren. Allerede kendte teknikker hertil er således f.eks. Latent Semantic Indexing. Herefter vil det ikke være nødvendigt for brugeren præcist at angive kendte nøgleord, men brugeren vil kunne angive emneområder.
  • Præsentationen af søgeresultater fra søgninger præsenteres i dag næsten udelukkende som simple lister over fremfundne web-sider. Fremtidigt kan forventes systemer, der giver mulighed for en grafisk præsentation af de enkelte dokumenters placering i forhold til clusters af emnemæssigt sammenhørende dokumenter. Der vil kunne hjælpe brugerne med at overskue de meget store antal henvisninger, der ofte findes med søgninger.
  • Opbygningen af de enkelte web-dokumenter er meget løst struktureret, hvilket betyder, at man ikke kan regne med, at der f.eks. findes meta-oplysninger omkring den pgl. side, eller hvis der findes meta-oplysninger, at de er korrekte. Der arbejdes allerede nu med fremtidige standarder, der indeholder mere meta-information og som lægger disse i mere faste rammer. Der kan således henvises til HTML 4.0-definitionen, RDF (Ressource Description Framework), XML (eXtended Markp Language) og andre protokoller, der er tænkt enten som næste generation af HTML eller som udvidelser/tilføjelser til den nuværende HTML-protokol. Implementeringen af disse nye standarder er dog i praksis helt afhængig af, at de store browser fabrikanter (dvs. Microsoft og Netscape) implementerer dem i deres browsere.
  • Indekseringsopgaven ved en samlet indeksering af hele WWW er allerede i dag en næsten umulig opgave. Derfor kan man forvente og allerede se, at der sker en vis specialisering af søgemaskinerne. Der findes således i dag en stor mængde søgemaskiner, der er begrænset til f.eks. kun et domæne eller til kun et emne (subjekt som f.eks. jobdatabaserne). En anden mulig løsning på størrelsesproblemet ville være en distribuering af opgaven til flere søgemaskiner, men der ses kun få tiltag mod dette. Da alle de store søgemaskiner i dag er kommercielt drevne forretninger, ses der ikke at være nogen interesse i at dele opgaven med at indeksere WWW mellem sig.

Af yderligere tiltag, der kunne tænkes at forbedre søgemulighederne på WWW, forestiller jeg mig følgende:

  • En form for standardisering dels af opbygningen af de forskellige søgemaskiners databaser, og dels og primært en standardisering af den syntaks, der benyttes til formulering af søgeudtryk på de forskellige søgemaskiner. Hvis der kunne opnås en ensartet standard på dette felt, ville det både gøre det meget lettere at skifte fra en søgemaskine til en anden, og det ville gøre det meget lettere at sammenligne søgeresultater fra forskellige søgemaskiner.
  • En klarere opdeling af de forskellige søgemaskiners coverage, dvs. i retning af, at søgemaskinere "deler" WWW mellem sig, således at det bliver nemmere at overskue, hvilken søgemaskine man skal vælge ved søgning inden for et bestemt domæne eller emne mv.
  • Indførelse af en form for certificering af web-sider, således at det var en uafhængig tredje-partner, der forestod udarbejdelsen af meta-data til de enkelte web-sider. Det ville betyde en klar styrkelse af troværdigheden af de meta-data, der lægges ind på siden.

Alle disse tiltag handler dog dybest set om at lægge en kontrol/styring ind på WWW, hvilket som udgangspunkt nok ikke harmonere med den nuværende opbygning og filosofi bag WWW.

Konkluderende kan man sige, at de eksisterende søgemaskiner alle bygger på, at brugeren har et bevidst emneafgrænset informationsbehov. Søgemaskinerne forudsætter således, at brugerens videnstruktur indeholder relevante termer og begreber i forhold til det emne, der skal søges efter. Tilsvarende forudsætter prioriterings- (ranking) systemerne i søgemaskinerne, at brugeren selv er i stand til at foretage en endelig vurdering af kvaliteten af det fremfundne materiale. Hvis brugeren har et verifikativt informationsbehov vil de eksisterende søgemaskiner i et vist omfang kunne finde relevant materiale. Mange af søgemaskiner støtter således, at brugeren søger direkte på f.eks. titel, men dette er omvendt hæmmet af, at der ved udgivelsen af web-sider ikke er noget formelt krav om, at sådanne oplysninger stilles til rådighed. For brugere med et mudret emneafgrænset informationsbehov vil de eksisterende søgemaskiner kun i meget begrænset omfang kunne hjælpe. Hvis brugeren ikke kender relevante termer omkring det eftertragtede emne, så er det næsten umuligt at formulere en relevant søgning. For sådanne brugere er der større hjælp at hente i katalogerne, dog under den forudsætning, at brugeren er så afklaret omkring i informationsbehov, at han kan rubricere det i forhold til strukturen i katalogerne. Hvis brugeren ikke er i stand til dette, så er det meget svært at finde relevant materiale på WWW.

Den afsluttende konklusion er derfor, at der faktisk ikke i dag findes nogen muligheder for, at man med et givent informationsbehov kan sikre sig, at man har foretaget en udtømmende, dækkende og relevant søgning af de ressourcer, der måtte være tilgængelige på WWW.