Professioneel zoeken | Achtergronden | Handige zoeksites

Hoe werken zoekrobots?

Zoekmachines zijn als ijsbergen: maar een klein gedeelte is zichtbaar, en wat er werkelijk toe doet, is voor de meeste mensen niet waar te nemen.

Wat gebruikers vooral zien van een zoekmachine is de grafische schil; de graphical user interface (GUI) daar waar zoekopdrachten worden ingetikt, en resultaten getoond.

Je kunt het web niet zelf doorzoeken; je bent daarbij afhankelijk van verzamelingen van anderen: indexen en zoekrobots.

Kennis over de werking van deze gereedschappen helpt je om betere resultaten te krijgen.

Achter de schil zijn er drie belangrijke onderdelen:

1. de spider (ook wel: crawler, wanderer, bot, verkenner, spinnetje, worm)

2. de database (index, catalog)

3. de software die rangschikking (ranking) in de resultaten aanbrengt (het algoritme).


1. De spider

De spider is een programma dat zich gedraagt als een browser: het 'leest' pagina's en volgt de daarop voorkomende links om naar nieuwe pagina's te gaan. De inhoud van alle pagina's wordt 'gelezen'. De tekst gaat mee naar de database, het tweede deel van de zoekmachine. De hyperlinks naar andere pagina's of andere sites worden gevolgd om ook die pagina's binnen te halen. Enzovoorts: het werk van een spider is nooit af.

In principe zou je spiders nooit hoeven te vertellen waar ze naartoe moeten omdat iedere site waar naar wordt gelinkt, ooit een keer wordt gevonden. In de praktijk kan het echter weken of maanden duren voordat een site die weinig wordt gelinkt door anderen, wordt gevonden. Webmasters kunnen daarom ook url's aanmelden, zodat de spider direct op de aangemelde pagina begint.

In de beginjaren namen spiders alleen tekst mee naar huis, maar sinds enkele jaren nemen enkele spiders ook de plaatjes zelf mee naar huis. AltaVista maakt daarvan bijvoorbeeld gebruik bij de zoekoptie om "images" te zoeken. De zoekmachine van Google is zelfs in staat ook binnen zogenoemde PDF-pagina's te zoeken.

Maar dit zijn uitzonderingen. Zoeksites die MP3's, filmpjes of software kunnen vinden, laten de bestanden voor wat ze zijn, en indexeren alleen de teksten die om deze bestanden staan, of de bestandsnaam.

Niet alles wordt geïndexeerd
Worden alle teksten meegenomen? Nee, in principe alleen statische HTML-pagina's, soms .txt-documenten, nooit Word-documenten, Flash-pagina's. Voorlopig is Google de enige site die ook opgemaakte pagina's in Adobes Portable Document Format (PDF) kan doorzoeken.

HTML-pagina's die zogenaamd dynamisch worden gegenereerd kunnen meestal niet worden geïndexeerd. Deze dynamische pagina's zijn bijvoorbeeld te herkennen aan extensies als .cgi, .asp of .jsp en een vraagteken in het URL. Sinds begin 2001 zijn HotBot en Google begonnen ook op beperkte schaal deze zogenoemde dynamische pagina's te verzamelen.

Ook worden een aantal elementen op (en achter) een pagina bewust overgeslagen: zoals Javascripts, en commentaar.

TITLEaltijdBelangrijkste element, zoekmachines maken de titel vaak aanklikbaar
META-tagssomsNiet alle robots letten op "keyword" en "description"-tags.
Javascript, Java, VRML, Real Audio e.d.zelden
(HotBot, Ilse Advanced)
Kan wel als onderscheidend criterium worden gebruikt, niet mogelijk te zoeken naar woorden in het Javascript
ALT-tagsmeestalals je plaatjes zoekt via AltaVista of Lycos zoek je in feite op bestandsnaam en de ALT-tekst
commentaarnooit 

Relevante link:

Een eenvoudige Flash-animatie van Learnthenet.com waarin de werking van een zoekmachine wordt getoond. Kijk maar ...
(Opent in nieuw venster, Flash-plugin noodzakelijk)

2. De database

Goed, je moet wel eens wachten op de respons van een zoekmachine. Maar altijd is dat vooral de tijd die een verzoek aan de webserver van zo'n site neemt, en de tijd die gemoeid is met het datatransport van en naar je computer.

Goed, je moet wel eens wachten op de respons van een zoekmachine. Maar altijd is dat vooral de tijd die een verzoek aan de webserver van zo'n site neemt, en de tijd die gemoeid is met het datatransport van en naar je computer.

Doorzoeken
De zoektijd door een database met honderdduizenden of zelfs miljoenen documenten is voor normaal gebruik te verwaarlozen. Zoeken naar een willekeurige term levert bijvoorbeeld bij FAST deze respons op:

1491 documents found - 0.0733 seconds search time.

In nog geen tiende seconde werd de inhoud van een slordige 2 miljard (2.000.000.000) geïndexeerde webpagina's doorzocht.

Toch is dat niet zo bijzonder. Zoeken en sorteren behoren tot de allereerste activiteiten die aan computers werden opgedragen. Er is al tientallen jaren wiskundige expertise en inzicht in methoden die op de meest efficiënte manier zo'n karwei aankunnen. Het beheersen van extreem grote dataverzamelingen (of het cijfers of letters zijn maakt voor een computer geen verschil) is bij uitstek werk voor computers.

Vaak zijn de databases van zoekmachines behoorlijk uit de kluiten gewassen computers. Maar soms zijn het niet eens zulke bijzondere apparaten. Enkele Nederlandse zoeksites met pakweg enkele miljoenen geïndexeerde webpagina's aan boord, draaien op stevige bureaucomputers met extra geheugen en een flinke harde schijf. Zoekmachines als Google en FAST leunen zelfs op hele parken met doodgewone pc's die parallel geschakeld zijn en allemaal een deel van de rekenklus voor hun rekening nemen.

Stopwoorden
Om de database beheersbaar te houden worden sommige woorden uitgezonderd van indexering. Dit zijn de zogenoemde stopwoorden: vaak de lidwoorden in diverse talen en woorden als "web" en "internet". Een enkele zoekmachine neemt zelfs deze woorden mee. Zie hiervoor het overzicht met karakteristieken van zoekmachines.

Minder is meer
Hoe meer pagina's er in de database zijn opgeslagen, hoe meer er gevonden kan worden. Maar zoeken kost tijd, en hoe kort dan ook, er zijn altijd andere klanten die ook wachten op hun zoekresultaten.

Inktomi, een bedrijf in zoektechnologie dat de database van onder meer HotBot, AOL, iWon en Yahoo verzorgd, heeft dat opgelost door een zoekvraag eerst door een database van 500.000 geïndexeerde webpagina's te sturen. Mocht dat niets opleveren, dan worden vervolgens de overige miljoenen webpagina's aangesproken. Aangezien de meeste zoekvragen met slechts een fractie van de database al prima kan worden beantwoord, betekent dit een aanzienlijke capaciteitswinst.

Linkrot
Een ander aspect van een miljard bezochte pagina's is dat er onvermijdelijk zogenoemde linkrot optreedt. Documenten bestaan gemiddeld maar enkele maanden op het web en na verloop van tijd deugen dus de links naar zo'n document niet meer. Er is linkrot opgetreden.
Zoekmachines moeten daarom alle ooit bezochte pagina's regelmatig controleren op voortbestaan en wijzigingen. Dit onderhoud vergt een flink deel van capaciteit van de spiders.

3. De rangschikking van resultaten (ranking)

Het rangschikken van de zoekresultaten is een activiteit waar eigenaren van zoekmachines uitermate geheimzinnig over doen. Niet alleen uit concurrentie-overwegingen, maar ook om webmasters niet te verleiden pagina's zo te bouwen dat ze optimaal (maar vaak ten onrechte) bovenaan in de lijst met zoekresultaten terechtkomen. AltaVista vergelijkt de precieze regels met het eveneens geheime recept voor Coca-Cola. Net als bij de frisdrank wordt er regelmatig aan het recept gesleuteld om het af te stemmen op de vraag uit de markt.

Zoekmachines rangschikken de resultaten op volgorde van relevantie. Dat hoeft niet jouw relevantie te zijn. Door de juiste zoektermen te kiezen, heb je de rangschikking veel beter in de hand.

Veel algemene criteria zijn echter bekend en worden ook gepubliceerd door de sites zelf. Zo weet iedereen dat de titel TITLE een grote rol speelt bij het plaatsen op een ranglijst. Daarnaast zijn woorden die in het begin van het document worden gevonden veel belangrijker dan woorden aan het eind van een pagina.

Maar er zijn ook factoren waarvan veel onduidelijker is wat ze bijdragen aan het bepalen van de relevantie.

Dit is een greep uit factoren op de pagina of site zelf:

 

  • De positie in de site. Hoe hoger in de hiërarchie hoe beter

    www.zoekprof.nl/nieuws/12345.html

    doet het dus beter dan:

    www.zoekprof.nl/nieuws/actueel/verderop/kijkookhier/12345.html);

     

  • De corpsgrootte H1 of H# , hoe groter hoe belangrijker het woord is, maar wie de hele pagina in hoofdletters opmaakt, loopt grote kans uitgesloten te worden;

     

  • Hoofdlettergebruik (zie bij corpsgrootte);

     

  • Het aantal malen dat een woord voorkomt (woordfrequentie) en de woordafstand tussen die woorden (woord proximity);

     

  • De woordlengte van een pagina (erg korte en erg lange pagina's krijgen ene lagere beoordeling);

     

  • Het aantal links naar andere sites (deze zogenaamde hubs krijgen voorrang boven sites met weinig links naar buiten);

    Naast bovenstaande factoren die gebaseerd zijn op de pagina, speelt ook de omgeving van de site of pagina een rol.
    Hierbij tellen de volgende factoren mee:

     

  • Het aantal links dat naar een pagina's wijst. Als deze dan ook nog afkomstig zijn van kwaliteitssites zoals bijvoorbeeld web-indexen als Yahoo, tellen deze pagina's zwaarder mee;

     

  • Het aantal maken dat een woord is opgevraagd in de zoekmachine, of hoe vaak is op de gevonden webpagina geklikt door eerdere bezoekers (user popularity);

     

  • Ook de (top level) domeinnaam kan een rol spelen. Sommige Nederlandse zoekmachines waarderen een site van een nl-domein hoger dan een com-adres, en een .com adres weer hoger dan homepage bij Geocities bijvoorbeeld.
  • Metatags doen wel mee bij het indexeren (de woorden daarin tellen wel mee), maar bij de rangschikking spelen ze een ondergeschikte rol om vals spel ('spammen') van de zoekmachines te voorkomen.

    Zie ook: De metatag is dood

    Zie verder: De heldere uitleg van het ranking-mechanisme van AltaVista


    Relevante artikelen:

    Hoe groter hoe beter? Wat zegt de omvang van een database?

    De toekomst van het zoeken

    Karakteristieken van zoekmachines: internationaal en Nederland

    (bijgewerkt november 2002)