Het mysterie genaamd zoekmachines

Altijd al afgevraagd hoe Google telkens weer jouw zoekbehoefte goed weet te vervullen ? In een korte hand omdraai wordt hier beschreven hoe Google en zijn robots te werk gaan.

Google, en door de wijze hoe het te werk gaat ook wel crawler based zoekmachine genoemd, bestaat uit de volgende vaste elementen:

  • een crawler (dit is de spider, robot);
  • de database van Google. Ook wel ‘index’ genoemd;
  • en tot slot de formule waarmee Google rond speurt: het algoritme.

Scrawlen en indexeren
Wanneer je zoekt met behulp van Google doorzoek je de index die Google van het World Wide Web heeft gemaakt of wat Google daarvan heeft kunnen vinden. Je zoekt daarom ook niet op het internet zelf. Crawlers zijn softwareprogramma’s die webpagina’s opzoeken, die de links volgen op deze pagina’s en halen vervolgens alle pagina’s op die weer naar deze verwijzen. Dit gaat net zo lang door tot Google het grootste gedeelte van het internet heeft geïndexeerd. Op dit moment beschikt de index van Google links van miljarden pagina’s op duizenden computers. Met indexeren wordt bedoeld: het opslaan van al deze door Crawlers verzamelde links in een database. Dit kan het beste vergeleken worden met een bibliotheek. Google heeft deze bibliotheek zo ingericht dat het in staat is om binnen een halve seconde nadat je op ENTER hebt gedrukt het resultaat weer te geven van je ingetypte zoekopdracht. Voor Google is het niet mogelijk een website te vinden die of niet is aangemeld als website bij een zoekmachine of als de link naar een webpagina ontbreekt. In de index wordt nu vooral nog de tekst van een webpagina opgeslagen maar de trend is het steeds meer op slaan van andere informatie dan alleen tekst in de index zodat Google nog beter in staat is om het beste en meest volledig afgestemde resultaat weer te geven.

Zoekresultaat
Maar wat bepaalt vervolgens wat wordt er weergegeven nadat je op ENTER hebt gedrukt en in welke volgorde de resultaten worden geplaatst in de lijst ? Dit gebeurt door het algoritme. Allereerst kijken we naar het resultaat dat wordt weergegeven wanneer we de volgende zoekopdracht intypen: ‘hoe hoog is de grootste boom ter wereld’

Zoekopdracht

Elk zoekresultaat bevat een titel, een URL en een tekstgedeelte wat je helpt bepalen of dit de pagina is waar je naar op zoek bent. Verder word het aantal zoekresultaten weergegeven, de snelheid waarmee het zoekresultaat is geplaatst en soms is er bovenaan of rechts van de pagina reclame  geplaatst. Wel of geen weergave van reclame wordt bepaald aan de hand van of de informatie in dit reclamebericht wel of geen toegevoegde waarde heeft aan het zoekresultaat.

In bovenstaande afbeelding geeft het plaatsen van een reclamebericht geen toegevoegde waarde aan de zoekopdracht.

Algo wat ?
Wat wordt er nu precies bedoeld met het algoritme ? Wanneer de zoekopdracht is ingetypt doorzoekt de software van Google, deze zogenoemde algoritme, wat eigenlijk niet meer is dan een zeer ingewikkelde wiskundige formule,, de index om naar pagina’s te zoeken die de ingetypte zoekterm bevatten. In bovenstaand voorbeeld van de hoogste boom ter wereld werden er voor deze zoekopdracht maar liefst 416.000 resultaten gegenereerd. De beslissing om een pagina wel of niet mee te nemen in het resultaat en de beslissing hoe hoog de pagina vervolgens moet worden geplaatst in de lijst met zoekresultaten wordt bepaald door het algoritme. Het algoritme stelt bij elke zoekopdracht wel meer dan 200 vragen. Dit zijn vragen zoals: hoe vaak komen de ingetypte zoektermen voor op de gevonden pagina’s, komen de woorden voor in de titel of in de URL en is het een pagina van hoge of lage kwaliteit. Hoe meer overeenkomsten een pagina heeft des te eerder wordt de pagina weergegeven in de lijst met zoekresultaten.

Page ranking
De keuze hoe hoog het zoekresultaat en dus de webpagina geplaatst wordt in de gegenereerde lijst, wordt bepaald door de vraag: ‘Wat is de page rank van de gevonden pagina ?’ De page rank, een uit het Amerikaans afkomstig woord, is ontstaan door een verzonnen formule van de twee oprichters van Google, A.(Aary) Page & S.(Sergey) Brin. Deze formule beoordeelt de waarde van de webpagina en kijkt naar hoeveel externe links de webpagina heeft en of deze belangrijk zijn. Hoe hoger deze waarde, hoe hoger de score in de page rank wat leidt tot een hogere plaatsing in de lijst met zoekresultaten.

Wil je nog meer te weten komen over de mysterie van de zoekmachine neem dan een kijkje op de Inside search pagina van Google of lees de zoekmachinemarketing blog van EdWords.

Achtergrondinformatie

Bron: Edwords, 2013
Bron: Google, 2013
Bron: Trosradar, 2013

Advertenties

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s