Professioneel zoeken | Achtergronden | Handige zoeksites

Handige links

Hoe werken zoekrobots?

Het doorzoeken van het web kan niet live, daar is het web te groot voor en de inhoud te divers. Zoekmachines vormen het gereedschap om je weg te kunnen vinden. De keuze van het gereedschap, bepaalt voor een deel of je zoektocht succesvol is. Kennis over zoekmachines kan je helpen een juiste keuze te maken.

Zoekmachines zijn als ijsbergen: maar een klein gedeelte is zichtbaar, en wat er werkelijk toe doet, is voor de meeste mensen niet waar te nemen.

Wat gebruikers vooral zien van een zoekmachine is de grafische schil, de website waar de zoekopdrachten worden ingetikt en de resultaten getoond.

Achter de schil zijn er drie belangrijke onderdelen:

1. de spider (ook wel: crawler, wanderer, bot, verkenner, spinnetje, worm)

2. de database (index, catalog)

3. de software die rangschikking (ranking) in de resultaten aanbrengt (het algoritme).


Hoe werkt een zoekrobot?

 1. Spider

De spider is een programma dat zich gedraagt als een webbrowser: het 'leest' webpagina's en volgt de daarop voorkomende links om naar nieuwe pagina's te gaan. De inhoud van alle pagina's wordt 'gelezen'. De tekst, de afbeeldingen, de aangetroffen documenten enzovoorts gaan mee naar de database, het tweede deel van de zoekmachine. De hyperlinks naar andere pagina's of andere sites worden gevolgd om ook die pagina's binnen te halen. Enzovoorts: het werk van een spider is nooit af.

2. de database

In de database van een zoekmachine wordt de inhoud van de gespiderde webpagina's op een slimme manier opgeslagen. Naast de tekst gaan er zoveel mogelijk additionele gegevens mee. Zoals de datum van creatie, gegevens over kleuren op de pagina, soorten documenten die zijn aangetroffen, enzovoorts.

In deze databrei kan snel worden gezocht. De meeste wachttijd gaat verloren met het transport van de gegevens van en naar de computer van de gebruiker.

Een zoektochtje bij Google naar een combinatie van twee veelvoorkomende woorden in 339 miljoen documeten vergt slechts eenderde seconde:

Results 1 - 10 of about 339,000,000 for large web. (0.28 seconds) 

3. De rangschikking van resultaten (ranking)

Het rangschikken van de resultaten is het derde belangrijke onderdeel van een zoekmachine. Welke resultaten op de eerste resultaatpagina komen te staan is esentieel voor de gebruikers; bladeren door tienduizenden zoekresultaten heeft weinig zin.

Zoekmachines rangschikken de resultaten op volgorde van relevantie. Dat hoeft niet de relevantie van de gebruiker te zijn.

Door het kiezen van de juiste zoektermen, kan de gebruiker de resultaten zelf grotendeels sturen.

Het rangschikken van de zoekresultaten is een activiteit waar eigenaren van zoekmachines uitermate geheimzinnig over doen.

 Niet alleen uit concurrentie-overwegingen, maar ook om te voorkomen dat webmasters hun pagina's zo inrichten dat ze ongeacht de inhoud van die pagina altijd bovenaan komen te staan.

Het precieze recept om bovenaan bij Google of een andere zoekmachine te komen is om begrijpelijke redenen even geheim als het recept van Coca-Cola. Evenals bij de frisdrank wordt er bovendien regelmatig aan het recept gesleuteld om het af te stemmen op ontwikkelingen in de markt.

Net als bij cola is het algemene recept wel bekend. Zoekmachines doen daar ook niet geheimzinnig over.

Uniek aan Google is het algoritme dat PageRank wordt genoemd. Kort gezegd: hoe meer links vanaf belangrijke websites, naar een bepaalde pagina, hoe hoger deze pagina stijgt in de resultatenlijsten, uiteraard mits de gezochte woorden voorkomen. Belangrijke websites zijn, in dit verband, ook were websites die door anderen ook weer veel worden gelinkt. Een link, schrijven de bedenkers van Google, is een stem; hoe meer stemmen des te  relevanter de  webpagina kennelijk is.

Verder is er een reeks andere bepalende elementen die de relevantie bepalen.

Zo speelt de titel van een pagina een grote rol bij het plaatsen op een ranglijst. Daarnaast zijn woorden die in het begin van het document worden gevonden veel belangrijker dan woorden aan het eind van een pagina.

Andere factoren zijn:

  • De positie in de site. Vergelijk het met een boom: hoe dichter een tak aan de stam is bevestigd, hoe hoger deze in de hiërarchie staat.
  • De lettergrootte hoe groter hoe belangrijker het woord is, maar wie de hele pagina in hoofdletters opmaakt, loopt grote kans uitgesloten te worden;
  • Het aantal malen dat een woord voorkomt (woordfrequentie) en de woordafstand tussen twee of meerdere gezochte woorden (woord proximity);
  • De woordlengte van een pagina (echter, erg korte en erg lange pagina's krijgen weer een lagere beoordeling).