Professioneel zoeken | Achtergronden | Handige zoeksites

Resultaten Nederlandse zoekrobots sterk verschillend

Dit onderzoek van Zoekprof is het eerste van een reeks metingen waarmee de kwaliteit van zoekmachines in kaart wordt gebracht.

Inleiding

Uit metingen van zeven Nederlandse zoekmachines blijkt dat het aantal geïndexeerde webpagina's van de sites sterk verschilt. Bovendien is de inhoud ervan niet altijd stabiel. Enkele sites staan soms enkele weken stil, bij andere sites nemen de resultaten soms toe, soms af.

Conclusies

Omvang zoekmachines verschilt sterk

Nederlandse zoekrobots verschillen onderling sterk in aantallen geïndexeerde pagina's. Bij een grote zoekmachine kan de gemiddelde gebruiker kiezen uit het zestig- tot honderdvoudige van het aantal resultaten dat bij een kleine zoekmachine wordt aangetroffen. Vooral bij het zoeken naar schaarse informatie op internet is dit van belang.

Top-7

Van de zeven onderzochte Nederlandse zoekmachines is dit de rangorde. (gemeten naar het aantal pagina's dat een vaste set zoekopdrachten oplevert).

novsept+ of -
1. Vindex(2)+
2. AltaVista(1)-
3. Lycos(4)0
4. Vindin(3)-
5. Track(5)0
6. Zoek(7)+
7. Ilse(6)-
Toelichting:
 
()Tussen haakjes: positie bij de meting in september 2000.
+Aantal resultaten is toegenomen ten opzichte van vorige meting
-Aantal resultaten afgenomen ten opzichte van vorige meting
0Aantal resultaten gelijk gebleven ten opzichte van vorige meting

Gebruikers van Vindex en AltaVista krijgen de meeste webpagina's voorgeschoteld. De bezoekers van Ilse, de best bezochte Nederlandse zoekmachine, hebben de keuze uit de minste zoekresultaten. Bij enkele zoekmachines neemt het aantal webpagina's dat gevonden wordt af, of blijven de resultaten gedurende enkele weken precies hetzelfde. Zo waren de zoekresultaten van Lycos een groot aantal weken precies hetzelfde. Ook bij Track was dit van juli tot september het geval.

Dit blijkt uit een indicatieve peiling van Zoekprof over de periode oktober 1999 tot en met november 2000.

Meer factoren van belang

Voor het beoordelen van zoekmachines zijn meerdere factoren van belang. In willekeurige volgorde zijn dat onder meer:

  • Precisie (krijg ik wat ik vroeg?)
  • Snelheid (reageer de zoekmachine snel genoeg?)
  • Recall (krijg ik werkelijk alle documenten die er bestaan?)
  • Actualiteit (wanneer is de site voor het laatst geïndexeerd en links gecontroleerd?)
  • Zijn dubbele pagina's verwijderd?
  • Wordt misbruik gestraft? (worden sites die spammen geweerd?)
  • Is de interface gebruiksvriendelijk?

Uit een kleine peiling op deze site blijkt dat de omvang van de database en de aanwezigheid van een web-index of natuurlijke taaloptie de meeste gebruikers koud laat. Ruim 80 procent hecht de meeste waarde aan uitgebreide Booleaanse mogelijkheden. (Zie uitslag)

Grafiek

Toelichting

Oorzaken verschil in grootte

De verschillen in resultaten worden deels veroorzaakt door de omvang van de index of database, het pakhuis aan webpagina's. Sommige zoekrobots indexeren minder websites, andere zoekmachines zijn actiever in het verwijderen van eenmaal gevonden webpagina's omdat ze dubbel voorkomen, of vanwege ongewenste inhoud.

Zo worden pagina's waarvan de verborgen codering (metatags) niet overeenstemt met de werkelijke inhoud van de webpagina door enkele zoekmachines uitgesloten van de zoekresultaten. Vooral exploitanten van sekssites maken zich vaak schuldig aan deze praktijk. Voor de gemiddelde gebruiker levert dit betere resultaten op, hoewel de omvang van de database omlaag gaat.

Let op: Omvang is slechts een van de criteria waarop de keuze voor een zoekmachine gebaseerd kan worden.

Schommelingen

Zoekmachines lijken niet altijd een groei in het aantal ge‘ndexeerde webpagina's te kennen, iets wat op basis van de groei van het web toch mag worden aangenomen.

Op basis van de metingen kan worden geconcludeerd dat het aantal pagina's dat een gebruiker krijgt voorgeschoteld als resultaat van zijn zoekopdracht kan variëren. Dit kan veroorzaakt worden door schommelingen in de omvang van de database. Ook andere factoren zoals werkzaamheden, belasting van de zoekmachines of de beschikbaarheid van delen van de index kunnen hieraan ten grondslag liggen.

Zoekmachine Vindex liet in een reactie weten dat de index in de gemeten periode flink gegroeid was: van 4 tot 8,5 miljoen geïndexeerde pagina's. De metingen laten inderdaad een groei zien, maar ook een tijdelijke daling in de periode juli tot september 2000. Een verklaring hiervoor werd niet gegeven.

Geen wijzigingen?

Verder valt op dat sommige databases over een periode van twee maanden geen enkele wijziging hebben ondergaan. De zoekresultaten van Track en Lycos waren bij de meting in november gelijk aan die van september 2000. Webpagina's die tussen beide metingen waren veranderd, verdwenen of nieuw verschenen, waren in de genoemde periode niet met deze zoekmachines te vinden. Metingen lijken uit te wijzen dat de database van Lycos ook tussen mei en juli niet is veranderd.

De database van Zoek is tussen oktober 1999 en november 2000 met hooguit enkele duizenden pagina's toegenomen. Product Manager Stephan Snoek tekent daarbij aan dat de omvang van de Zoekdatabase inderdaad geringer is, maar dat de kwaliteit hoger is omdat alle sites voor opname eerst worden bekeken door een medewerker. Track, waarvan de resultaten leken stil te staan in de periode september - november 2000, geeft bij monde van projectleider Roy Verheul toe dat door werkzaamheden aan machines en interface "de mutaties [in de genoemde periode] zijn afgenomen". Inmiddels is de database overigens weer volop in beweging.

Lycos laat bij monde van marketing manager Renzo Moscou weten dat het bedrijf de eigen index niet meer zal aanvullen omdat deze maand nog de nieuwe index, gebaseerd op de FAST-technologie in gebruik zal worden genomen. FAST heeft momenteel vermoedelijk 's werelds grootste index en streeft naar een index die alle bestaande webpagina's omvat.

Betekenis van het onderzoek

De omvang van de database, zoals in dit onderzoek gemeten, is voor algemene zoekopdrachten minder van belang dan voor zeer specifieke zoekvragen.

Wie op zoek is naar veelgevraagde onderwerpen als "Amsterdam", "MP3", of "opvoeding" kan met de meeste zoekmachines goed uit de voeten. Bij deze opdrachten is de rangschikking en de mogelijkheid om bepaalde pagina's uit te sluiten van de resultaten, of juist toe te voegen (Amsterdam AND parkeren) van groter belang.

Het aantal ge‘ndexeerde pagina's gaat echter zwaar tellen bij het zoeken naar schaarse informatie. Wie op zoek is naar een webpagina waarop wordt uitgelegd wat een "architraaf" is, hoopt dat de zoekmachine die hij gebruikt deze pagina inderdaad heeft ge‘ndexeerd. Voor professionele zoekers op internet zoals documentalisten en journalisten vormt de omvang van de database een belangrijke leidraad bij het kiezen van de meest geschikte zoekmachine.

Alleen zoekrobots

In de metingen van Zoekprof.nl zijn alleen zelfstandige zoekrobots opgenomen, de zogenaamde "spider based" zoekmachines, die bovendien ook de aantallen gevonden webpagina's aan hun gebruikers rapporteren. Om die reden valt bijvoorbeeld Search.nl af waarbij nooit meer dan 200 resultaten worden gegeven. Metazoekmachines, als Vinden en Zoekhond die hun zoekresultaten baseren op de zoekresultaten van andere zoekmachines, en handmatige web-indexen als LookSmart en Open Directory, zijn niet onderzocht omdat hun werking en de geleverde zoekresultaten niet te vergelijken zijn met die van zoekrobots. In latere onderzoeken zal Zoekprof ook aan deze machines aandacht besteden.

Waarom dit onderzoek?

Uit de reacties van zoekmachines valt af te leiden dat het onderzoek weliswaar "aardig" wordt gevonden, maar dat het de omvang van een database bepaald niet als belangrijk criterium geldt. Dat klopt, en dat ben ik ook met de projectleiders en product managers eens.

Er zijn twee redenen waarom de metingen toch van belang zijn.

Eerst een algemene opmerking over het belang van het kritisch volgen van zoekmachines:

Bijna alle internetgebruikers maken (regelmatig) gebruik van zoekmachines. Dat blijkt uit onderzoekjes als van RealNames: driekwart van de zoektijd gaat op aan zoeken.

Maar het blijkt ook uit de Top-10 lijstjes: zoekmachines staan altijd bovenaan. Volgens een recent InterView/NSS onderzoek zijn dit de drie best bezochte sites: Startpagina (2), AltaVista (3), Ilse (6). Volgens Multiscope, die een andere methode hanteert, zijn dit de populairste zoeksites: Startpagina (1), Ilse (2), AltaVista (3), Vindex (9).

Maar over de prestaties van deze sites is weinig bekend. Er zijn wel regelmatig onderzoeken naar e-commerce-sites, de kwaliteit van providers, de snelheid van websites en verbindingen, de snelheid van reageren op e-mail, maar over de kwaliteit van de zoekresultaten is weinig bekend.

Zoekprof wil in die leemte voorzien, en is daarom begonnen bij het begin: welke zoekmachines doen er toe?

Alleen al in Nederland zijn er tientallen algemene zoekmachines. Maar welke zijn belangrijk voor een breed publiek? Er zijn twee voor de hand liggende criteria:

  • de bezoekcijfers
  • zoeksites die serieus werk maken van zoeken en dus een flink aantal sites hebben geïndexeerd.

Dit is de eerste reden waarom een peiling naar de omvang van de database van belang is. 

Een tweede reden is hierboven al gegeven: wie op zoek is naar schaarse informatie wil graag putten uit een reservoir dat groot is. De kans dat je dan iets van je gading aantreft lijkt groter.

Natuurlijk zijn er bij het beoordelen van de omvang van de database meer criteria van belang: haalt de zoekmachine dubbele pagina's en dode links uit de resultaten, op welke manier worden pagina's op volgorde gezet en worden lieden die de zoekresultaten oneigenlijk be‘nvloeden ook gestraft door de pagina's te verwijderen?

Naar deze (en meer) aspecten verricht Zoekprof ook al enige tijd metingen. Deze zullen later worden gepresenteerd, zodat uiteindelijk een beeld moet ontstaan van de prestaties van zoekmachines.

Op basis daarvan kunnen (bijna) professionele zoekers een overwogen beslissing nemen om bepaalde zoekmachines in te zetten bij een bepaald soort vragen.

Theo Stielstra

december 2000