Google SMITH algoritme presteert beter dan BERT

INGEZONDEN - Enkele weken geleden bracht Google een rapport uit over het SMITH algoritme van Google. 

In dit onderzoeksrapport bleek dat het SMITH algoritme beter presteert bij lange zoekopdrachten dan het BERT algoritme. SMITH begrijpt passages in documenten op dezelfde manier waarop BERT woorden en zinnen begrijpt. Hierdoor is het algoritme in staat om langere documenten te begrijpen. We vertellen meer over het SMITH algoritme van Google en de invloed hiervan op (jouw) SEO.

Wat is het SMITH algoritme precies?

We hebben het over het SMITH algoritme van Google, maar wat houdt dit nu precies in? SMITH is een nieuw model van Google om volledige documenten of passages binnen de context op het internet te begrijpen. Modellen als BERT zijn getraind om woorden te begrijpen binnen de context van zinnen, maar niet volledige documenten. Met het nieuwe algoritme van Google kan dit wel.

Dit is een goede vooruitgang van Google, omdat algoritmes zoals BERT enkel getraind zijn om woorden te raden op basis van de context van een zin. Ze kunnen dus niet gehele teksten lezen, maar raden stukken context. Het SMITH algoritme is getraind om te voorspellen wat de volgende alinea wordt.

Volgens onderzoekers helpt dit algoritme om grotere documenten beter te begrijpen dan het BERT algoritme kon. Het BERT algoritme beperkt zich tot het begrijpen van korte documenten. 

Geen vervanging voor BERT

SMITH leest niet alleen langere teksten gemakkelijker, hij presteert ook beter door langere teksten. Echter kan hij BERT niet vervangen, omdat het algoritme niet goed functioneert op kortere teksten. Het is om deze reden een goede aanvulling op BERT. SMITH kan worden gebruikt voor de documenten die te lang zijn voor BERT.

Het SMITH algoritme onderzoek

Er is een onderzoek uitgevoerd naar het SMITH algoritme. In dit onderzoek wordt een pre-training model gebruikt dat vergelijkbaar is met BERT en andere algoritmes.

Bij een pre-training wordt het algoritme getraind met een dataset. Tijdens de training laten de onderzoekers enkele woorden in de tekst weg, zodat het algoritme de woorden moet invullen. Hierdoor zien de onderzoekers of het algoritme de juiste voorspelling maakt. 

We geven een voorbeeld. We hebben de zin: ‘’De appel valt niet ver van de…..’. Het algoritme moet nu voorspellen dat er op de puntjes het woord ‘boom’ moet komen te staan. Wanneer het algoritme dit goed leert, gaat het na verloop van tijd minder fouten maken. 

Pre-training anders voor SMITH

Bij de pre-training voor SMITH werden er niet enkel woorden weggelaten, maar langere stukken tekst. Hierdoor leert het algoritme deze stukken tekst te voorspellen. Dit is dan ook een belangrijk deel van het SMITH algoritme. 

Het SMITH algoritme leert de relatie tussen woorden begrijpen. Voorts gaat het vervolgens een stap verder door inzicht in de content te krijgen en kijken hoe ze met elkaar in verband staan in een langer document.

Waarom is dit onderzoeksverslag belangrijk?

Een onderzoeksrapport geeft meer details over of een voorgesteld model beter presteert dan bestaande modellen. Ook heeft zo’n rapport een grote kans om onderdeel te worden van het Google algoritme. De moeite waard om te lezen ter ontwikkeling en natuurlijk ter interesse.  

Google heeft nog niet officieel bevestigt dat de SMITH algoritme in gebruik is. Tot dit officieel geconformeerd is, weten we helaas niet zeker of het model (al) gebruikt wordt. Wel denken we door dit onderzoeksrapport dat het SMITH algoritme wel door Google gebruikt gaat worden. 

SMITH algoritme en SEO 

Het SMITH algoritme is van belang voor de ontwikkelingen binnen SEO. Het is belangrijk om op de hoogte te blijven van de ontwikkelingen binnen Google en andere SEO gerelateerde gebieden. Zo kun jij (met je bedrijf) hier gemakkelijk op inspelen. Uiteraard is het ook voor SEO specialisten belangrijk dat zij op de hoogte blijven van alle nieuwe ontwikkelingen.