[ekebjerg.dk]
Du er her: Home | Søgemaskiner | Søgemaskiner - kap. 5 Beskrivelse af eksisterende søgemaskine
 

Søgemaskiner - kap. 5 Beskrivelse af eksisterende søgemaskine Udskriv

I dette kapitel vil jeg give en beskrivelse af en af de kendte store søgemaskiner, nemlig AltaVista. Beskrivelsen er bygget op omkring et analyse-skema[5], der er nærmere beskrevet og gennemgået i appendiks D med hensyn til indholdet af de forskellige punkter. Analyse-skemaet er valgt ud fra 2 grunde:

  1. dels er det meget detaljeret og sikrer derved en meget grundig gennemgang og beskrivelse af den valgte søgemaskine, og
  2. dels er analyse-skemaet det eneste kendte og umiddelbart tilgængelige skema, der har været brugt til en større samlet beskrivelse af kendte søgemaskiner.

Beskrivelsen bygger dels på egne erfaringer med søgemaskinen (ikke mindst i forbindelse med denne rapport) og dels på forskellige offentlige kilder, og heriblandt søgemaskinens egne oplysninger, der er indsamlet i forbindelse med udarbejdelsen af denne rapport.


Alta Vistas startside
Figur 7 - Søgemaskinen AltaVista's startside

 

Header
1 AltaVista by Digital Corp.
2 mandag d. 13/7-98
3 Peter Ekebjærg
General information
4 Robot-baseret index
5 Gratis, da tjenesten drives som en form for reklame for Digital.
6 Opgiver selv at have indekseret 125 mill. web-sider pt.
7 Digital Equipment Coporation
8 http://www.altavista.digital.com
9 AltaVista Asien: http://altavista.skali.com.my/,
AltaVista Australien: http://www.altavista.yellowpages.com.au AltaVista Canada: http://www.altavista.ca/
AltaVista Sydamerika: http://www.altavista.magallanes.net/
AltaVista Nord Europa: http://www.altavista.telia.com/
AltaVista Syd Europa: http://www.altavista.magallanes.net/
Søgninger i adskillige søgemaskiner og kataloger sker ved opslag i AltaVista , herunder bl.a. søgninger i kataloget YAHOO!
10 http://www.digital.com
11 Startede som et forskningsprojekt i Digital Corp.'s forskningsafdeling Palo Alto Lab og er derefter vokset og udviklet til at blive pt. formentlig den største søgemaskine på WWW.
12 Opdaterer konstant, idet der indekseres 6-10 mill. sider per dag. Det skulle betyde at indekserede sider skulle være up-to-date inden for 1 måned.
13 AltaVista udfører kun automatiseret indeksering; der er ingen manuel evaluering eller katalogisering af siderne.
14 Brugerne skal ikke registreres for at kunne bruge tjenesten.
15 Ingen - er gratis for brugerne.
16 Sidste måling i The MICA Report, per 14/6-98: Gennemsnitlig responstid 40.7 sek. for indlæsning af 3 sider med søgeresultater udført på en dial-up opkobling.
Harvesting
17 Scooter/2.0 udviklet af Digital.
18 Følger hele Robot Exclusion Standard
19 Automatisk indeksering af indsamlede hyperlinks, samt af bruger-registrerede URL's.
20 Kører mindst en gang i kvartalet en "fuld Web crawl", hvor hele web-sites indekseres. Der er dog begræsninger på web-sitens størrelse.
21 Bruges default ved automatisk indeksering af indsamlede hyeplinks.
22 WWW og UseNet.
23 Dækker hele World Wide Web.
24 Dækker generelt i alle emner.
25 Skulle være up-to-date inden for en måned. Kører min. 1 gang per kvartal en "fuld web crawl".
26 Ukendt som specifikt tal for AltaVista.
Indexing
27 N12 Indexing Software
28
  • Følgende indekseres: Alt tekst, ALT-tekst (alternativ teksten) til for billeder, hyperlinks (hrefs og billeder), anchors, titel, META Tags description og keywords, java applets, Active X objekter, navne URL, host navn og domæne navn. Endvidere fil-størrelse og -dato.
  • Følgende indekseres ikke: HTML-kommentarer.
  • Der udføres ingen menneskelig katalogisering eller indeksering.
  • Der udarbejdes ikke manuelt en beskrivelse ell.lign.
Retrieval system
29 ukendt.
30
  • Der gives mulighed for:
    Exact (boolean) match, Best match og kombinationer af begge.
  • Der er ikke opgivet noget omkring vektor retrieval, citationsanalyse eller andre teknikker.
31
  • Der kan søges i naturligt sprog uden anførelse af boolske operatorer. Herved søges der med logisk OR mellem de anførte ord.
  • Der skelnes mellem store og små bogstaver, således at med angivelse af små bogstaver søges der både på store og små. Ved angivelse af store bogstaver søges der kun på store bogstaver.
  • Der kan opbygges boolske udtryk med angivelse af følgende boolske operatorer (med alternative symboler anført i parentes):
    • AND (&)
    • OR (|)
    • NOT (!)
    • NEAR (~) (dog kun op til indenfor 10 ord)
  • Endvidere kan der anføres symbolerne + (including) og - (excluding) for at angive ord, der enten skal være med eller skal ikke være med.
  • Der er ikke mulighed for at vægte de enkelte søgeord.
  • Der kan søges på eksakte sætninger med anførselstegn " ".
  • Der er mulighed for trunkering med *, der dog kun kan bruges i enden af ordene.
  • Der er ikke angivet konkret, hvorledes der foretages ranking/prioritering af søgeresultaterne. Ved at skrive søgeudtrykket i "The boolean operations section" på siden "Advanced Search" kan man få søgesresultatet præsenteret uprioriteret, ligesom man kan nøjes med at få vist antal udfundne links.
  • Der er mulighed for at angive et dato-interval med hensyn til dokumenternes oprettelsesdato.
  • Der er mulighed for at anføre hvilket sprog, der skal søges i.
What is searchable
32 Der kan vælges mellem forskellige sprog.
33 Hvis der ikke angives noget nærmere søges der i den fulde tekst.
34 Der kan søges specifikt på følgende:
  • anchor:text (søger på sider, der indeholder den angivne tekst i et hyperlink)
  • applet:class (søger på sider, der indeholder den angivne java-applet)
  • domain:domainname (søger på sider fra det pgl. domæne)
  • host:name (søger på sider på en sceifik host)
  • image:filename (søger på på sider, hvor der findes billeder med det angivne navn)
  • link:URL text (søger på sider, der indeholder det angivne hyperlink)
  • text:text (søger på sider, der indeholder den angivne tekst, der ikke er del af et image tag, et link eller en URL)
  • title:text (søger på sider med den angivne titel)
  • url:text (søger på sider med den angivne URL-adresse)
35 -
36 Det er intet opgivet omkring en evt. stopordsliste. Søgning på f.eks. to be giver dog ingen resultat, hvorfor der sandsynligvis benyttes en stopordsliste.
Search improvement
37 Der kan kun søges med nøgleord.
38 Nej
39 nej
40 Nej
41 Der er mulighed for på siden Refine af udelukke eller inkludere forskellige ord, der har sammenhæng med de fremfundne dokumenter. Virker dog som hvis man selv brugte operatorerne + og -.
42 Den ovenfor anførte Refine kan vises grafisk via en java-applet.
43 -
Result display
44 Der vises et samlet antal matchende dokumenter, samt et antal dokumenter per søge ord.
45 Nej, der er altid ens fremvisning på 10 hits per side.
46 Nej
47 Følgende vises per hit:
  • Titel på dokumentet
  • URL
  • Kort beskrivelse - enten fra META Tag description eller de første par linier fra dokumentet
  • Dato for sidst ændring af dokumentet
  • Filstørrelse
  • Sprog
  • En mulighed for at få oversat dokumentet
48 Der kan prædefineres følgende formater:
  • Text-only View
  • Advanced Search
  • Compact Format for Web Results
  • Detailed Format for Usenet Results
  • Graph View for Refine
49 nej
50 Dokumenerne fremvises i prioritet rækkefølge, men uden angivelse af score eller ranking-system.
51 Baseret på relvans-beregning.
52 Der frasorteres dubletter. Der valideres ikke på de fremfundne links.
53 Ingen.
54 nej.
User interface
55 Se fig. 5.1.
56 Bruger-interfacet viser en forbløffende mangel på reklamer, hvilket gør den rimelig overskuelig.
57 God.
58 Ja
59 Ja
60 http://altavista.digital.com/cgi-bin/query?pg=q (Simple query);
http://altavista.digital.com/cgi-bin/query?pg=aq (Advanced query)
61 -
62 Nej
63 -
64 nej.
65 Ja.
66 http://www.altavista.digital.com/av/content/faq.htm
67 http://www.altavista.digital.com/av/content/help.htm
68 God
69 Ja, på hjælpesiderne
70 Nej
71 nej
72 nej
73 nej
Documentation
74 -
75 The AltaVista Search Revolution mm.
76 Masser.