Professioneel zoeken | Achtergronden | Handige zoeksites

Handige links

Zoekmachines en taaltechniek

De nieuwste generatie zoekmachines lijkt de gebruiker te begrijpen. De resultaten zijn soms zo perfect, dat de zoeksite wel over taalgevoel lijkt te beschikken. Klopt dat?

Allereerste

De allereerste zoekmachines hielden zich niet bezig met taalkwesties. Dat was ook niet nodig, want zoeken en vinden waren in de beginjaren van het web, nog praktisch synoniem. Een ingegeven woord, werd vergeleken met een geïndexeerde lijst met alle woorden die de zoekmachine op diens speurtocht door het web was tegengekomen. Hoe vaker het woord voorkwam op zo'n pagina, des te belangrijker de webpagina werd geacht te zijn. AltaVista (www.altavista.com) was bij het verschijnen in 1995 zo'n eenvoudige zoekmachine.

Rangschikking

Ook de tweede generatie zoekmachines werkte in wezen niet anders. De verbeteringen werden aangebracht in het gedeelte van de zoeksite waarin de rangschikking van de resultaten tot stand komt. Om te voorkomen dat webpagina's waarin een bepaald woord honderd keer voorkomt altijd bovenaan de lijst zouden eindigden, werd ook de positie van een bepaalde webpagina binnen het netwerk van belang. Hoe vaker er naar een bepaalde pagina wordt gelinkt op het web, hoe zwaarder de wegingsfactor werd. Het idee hierachter: het aantal links naar een bepaalde webpagina is groter, naar mate de informatie daarop interessanter, of belangrijker is. Een voorbeeld van een van de eerste zoekmachines die op deze manier werken is Google. Intussen gebruiken de meeste grotere zoekmachines ook een dergelijke rangschikking.

De precieze werking van deze algoritmen is even geheim als het recept voor Coca-Cola. De ingrediënten zijn weliswaar bekend, maar de weging, vormt het geheim van de smid.

Derde generatie

Pas bij de huidige, derde, generatie zoekmachines speelt taal een grotere rol. En dat is wel nodig ook. Het aantal mogelijke 'antwoorden' op zoekvragen is groter dan ooit, maar toch gebruikt 70 tot 80 procent van de zoekers op internet nog hardnekkig maar één woord om te zoeken. Niet zo gek dus dat het grootste deel van de tijd die internetters online doorbrengen, wordt besteed aan het opzoeken van informatie. Zoeken met twee of meer woorden zou al een stuk efficiënter verlopen.

Neem zoeken naar het woord 'Amsterdam', een woord dat regelmatig bovenin staat van de top10 met meestgezocht woorden in Nederland. Zoeken met alleen dit woord levert vele tienduizenden hits op. Echter in combinatie met woorden als 'hotel', 'reservering', of 'Museumplein' dringt de zoeker veel sneller door tot de gezochte webpagina's.

Automaat

Makers van zoekmachines proberen de 'domme' gebruiker tegemoet te komen door de zoekvraag te interpreteren. Wanneer iemand 'automaat' intikt, is hij dan op zoek naar nieuwe of tweedehandsauto's'? Of naar een kauwgomballenautomaat, of naar een flipperkast?

De jongste generatie zoekmachines poogt daarom de gebruiker te helpen. Enerzijds door de gevonden antwoorden te groeperen, anderzijds door de relaties aan te geven tussen het gezochte woord en termen die daar mee te maken hebben.

Een fraai voorbeeld van een techniek waarmee gebruikers worden geholpen, is de groepering in concepten. Zoekmachines als Vivisimo (www.vivisimo.com), ontwikkeld aan de Cargenie Mellon University en Northern Ligth (www.northernlight.com) hebben hier ieder een eigen methode voor. Wie een woord als 'apple' ingeeft, krijgt de resultaten verdeeld over mapjes: computers en fruit. Wie 'bond' probeert krijgt de resultaten verdeeld over onder meer de mapjes 'James Bond' en allerlei financiële producten.

Hoewel de resultaten indrukwekkend nauwkeurig zijn, zelfs bij het zoeken naar Nederlandse woorden, speelt taal een ondergeschikte rol. De zoekvragen worden nauwelijks taalkundig ontleed. Wel test Vivisimo eerst de (vermoedelijke) taal, en worden de meervoudsvormen ook gezocht, maar het ontwikkelen van concepten gebeurt op puur wiskundige basis, met een gepatenteerd algoritme.

Oingo

Heel anders werkt het kleine Oingo (www.oingo.com). Deze zoeksite is bedoeld als etalage voor de zoektechniek van de firma Applied Semantics, waar zoekopdrachten juist wel op basis van taal worden ontrafeld en in verband worden geplaatst. Oingo werkt alleen in het Engels, en dat blijkt: bij het zoek naar Nederlandse woorden bakt 'ie er niets van. Bij het intikken van Engelstalige begrippen is de machine echter in zijn element. Probeer eens 'apple' en de gebruiker kan plots kiezen uit: fruit, boomgaarden, de plaats in Oklahoma en natuurlijk de gelijknamige computerfabrikant.

Taal

Het uiteenrafelen van zoekvragen op basis van taal, een thesaurus en ervaringen van eerdere gebruikers is natuurlijk veel ingewikkelder, maar de kwaliteit is hoger. Dat merken ook de duizenden gebruikers van de 'vragenmachine' die verborgen is achter de website van de Postbank. De techniek er achter is ontwikkeld door Q-Go, een van de zeldzame bedrijven die zich richt op zoeken in het Nederlands. De zoektechniek van Q-Go maakt gebruik van de zogenaamde 'natuurlijke taal', ofwel zoeken in gewone woorden.

Daarbij blijkt de rijkdom van de menselijke taal opeens een struikelblok. Q-Go, die ook een zoekmachine heeft op de site van internetprovider Freeler, maakt gebruik van een combinatie van taaltechniek - waarbij woorden, woordverbanden, de zinsconstructie en dergelijke een rol spelen - en een menselijke inbreng, waarbij redacteuren veelgestelde vragen pogen te voorzien van een antwoord.

Bij Freeler is te zien dat je daarbij aan de gang kan blijven. Op de vraag 'Wie biedt de hoogste spaarrente?' komen inderdaad adequate antwoorden, kennelijk gebaseerd op een menselijke ingreep, maar ook 'Waar vind ik informatie over de hoogste berg in Afrika Kilimanjaro?' en: 'Waar vind ik het Guinness Book of Records?'. Beide gerelateerde vragen die worden veroorzaakt door het woord 'hoogste'.

Bij het vragen naar de huidige tijd in Moskou ('Hoe laat is het nu in Moskou?') wordt de vraag uiteengeplozen in allerlei vragen overMoskou, het toerisme in de Russiche hoofdstad. Maar bij dezelfde vraag over Berlijn, ontspoort de zoekmachine. Q-Go biedt aan te zoeken naar informatie over 'Koning Arthur' en informatie over het 'housefestival Dance Valley'. Joost mag weten waar deze kronkel vandaan is gekomen, en pas wanneer de vraag wordt geherformuleerd in: 'Welke tijd is het nu in Berlijn?' duikte behalve Dance Valley en koning Arthur ook een link naar een 'universele wereldklok' op.

Postbank vragenmachine

Dit soort kronkels zullen de gebruikers van de Postbank-zoekmachine minder snel overkomen. De natuurlijke taalmachine is op zijn best, wanneer er vragen binnen een beperkt domein worden gesteld. Het aantal betekenissen van bepaalde woorden is dan beperkter, en het aantal mogelijke vragen mogelijk zelfs overzichtelijk. De zoekmachine handelt geheel zelfstandig 4000 vragen per dag af. Hiervan werden voordien 15 tot 20 procent telefonisch aan het call-centre gesteld.

Zo komen er behoorlijke adequate reacties op vragen naar hoogste rentes, hypotheekvormen en locaties van pinautomaten. Sterker: deze zoekmachine heeft aan een half woord genoeg. Op de onaffe vraag 'Hoe verhoog ik' komt zelfs een prima antwoord (' Hoe kan ik de bestedingsruimte van mijn creditcard verhogen?'). En wanneer een klant alleen maar heeft getypt: 'Hoe verlaag ik mijn?', neemt de zoekmachine aan dat bedoeld werd: 'Hoe kan ik de maandlast van mijn hypotheek verlagen?' En zo zien we het graag bij zoekmachines: al een goed antwoord, nog voordat de vraag goed en wel is gesteld.

Theo Stielstra

(22 november 2001)

Ingekorte versie van het artikel 'De taalgevoeligheid van zoekmachines', dat verscheen in het themanummer Nederlands Digitaal van het maandblad Onze Taal, nummer 11, 2001.