Professioneel zoeken | Achtergronden | Handige zoeksites

Handige links

Het onzichtbare web

Volgens schattingen omvat het web (april 2001) een slordige anderhalf miljard webpagina's. Deze informatie past op 19 terabyte schijfruimte, ofwel 19.000 gigabyte. Zoekmachines hebben al behoorlijke moeite deze telkens groeiende hoeveelheid informatie te indexeren.

Zoekmachines komen vaak niet verder dan 30 tot 40 procent van de websites. Toch is het, door gebruik te maken van meerdere zoekmachines, mogelijk 60 tot 70 procent van de bestaande webpagina's te doorzoeken.

In de zomer van 2000 werden internetgebruikers echter opgeschrikt door het bericht dat het web zeker 500 maal groter is. Volgens BrightPlanet, een bedrijf dat zich specialiseert in zoektechnologie, bevat het web niet niet 1,5 miljard pagina's, maar zijn er liefst 550 miljard pagina's met informatie te vinden via het web.

De pagina's die Bright Planet zegt te kunnen vinden, worden ook wel het 'onzichtbare web' (invisible web) genoemd. Dit onzichtbare web is een fenomeen dat al sinds 1994 bekend is, ook bij de makers van zoekmachines. Het gaat om informatie die niet bereikbaar is voor de huidige generatie spiders. Deze machines beperken zich met name tot het doorzoeken van statische webpagina's die via links te vinden zijn.

LexiBot
LexiBot is geen eenvoudige zoekmachine voor het grote publiek. Zoekacties duren soms 10 tot 25 minuten, en bij complexe opdrachten kan dat oplopen tot wel 90 minuten.

Voor thuisgebruikers is er een beperktere offline-versie (Windows, 30 dagen) beschikbaar met opvallende resultaten. Het bedrijf ziet de toepassingen dan ook vooral bij bedrijven en de wetenschappelijke wereld.

Wat Bright Planet betreft kan het onzichtbare web voortaan beter aangeduid worden met de term het 'diepe web' (the deep web).

Download LexiBot 2.0

Maar behalve deze zogenoemde 'harde' html-pagina's komt er op het web steeds meer informatie bij die is opgeslagen in databases, omdat de omvang van de informatie als statische webpagina's niet meer te beheren is. De database-informatie wordt pas als webpagina gepresenteerd als de gebruiker er om vraagt; ze wordt on the fly gegenereerd.

Sites met dergelijke dynamische pagina's nemen in aantal sterker toe dan de sites waar informatie op een traditionele manier wordt gepresenteerd. De gebruiker merkt meestal niets van deze manier van werken: de pagina's uit het online telefoonboek, de beschrijvingen uit de online encyclopedie, de informatie uit talloze online archieven, museumcatalogi, overheidsinformatie, pagina's met statistische gegevens; het zijn allemaal websites met informatie die direct uit enorme databanken worden samengesteld.

Daarnaast bestaat het onzichtbare web nog uit talloze webpagina's die bestaan uit animaties (zoals Flash-animaties), of andersoortige documentformaten zoals Word- of PDF-bestanden.

Een indruk van de omvang van het onzichtbare deel van het web is te krijgen via Complete Planet, een site van Bright Planet met verwijzingen naar 27.000 van de naar schatting 200.000 databanken waarvan de inhoud niet aan het oppervlakte van het web komt.

Zie ook:

Hoe werkt een zoekrobot?
Nieuws: onzichtbare web zichtbaar gemaakt
De toekomst van het zoeken

Relevante links:

BrightPlanet: The Deep Web FAQ

Artikel van Chris Sherman (8-6-2000) bij Free Pint (zie ook de bronnen-pagina) met veel links en voorbeelden: The Invisible Web

(april 2001, update 23 augustus 2001)