Natural Language Processing (NLP) is een expertisegebied dat zich richt op de interactie tussen computers en menselijke taal. Met behulp van Data Science en Artificial Intelligence kunnen NLP-algoritmen informatie uit teksten extraheren, teksten analyseren en zelfs teksten genereren. 

NLP is een fenomeen dat teruggaat tot de jaren vijftig en in de afgelopen decennia is het veld enorm volwassen geworden. Vroeger was de benadering van NLP erg linguïstisch, geconcentreerd op taalstructuren en op het zoeken naar manieren waarop computers deze structuren konden begrijpen. Tegenwoordig is de linguïstiek van een taal minder relevant door het gebruik van Big Data en moderne typen neurale netwerken. Deze neurale netwerken zijn modellen die, als ze groot genoeg zijn, elke denkbare relatie in de ingevoerde data kunnen interpreteren. Bovendien zijn neurale netwerken in staat om taken zoals classificatie, voorspelling en visualisatie te leren, enkel door voorbeelden te beschouwen. 

Recente ontwikkelingen op het gebied van NLP zijn een direct gevolg van de toepassing van neurale netwerken en Deep Learning methoden. Deep Learning is in het afgelopen decennium ontstaan ​​en in de afgelopen vijf jaar de basis geworden van innovaties op alle gebieden van kunstmatige intelligentie. Guus van de Mond, partner bij Squadra en oprichter van Machine Learning Company, legt Deep Learning uit met het volgende voorbeeld: 

“Deep Learning verdeelt in wezen een bepaald probleem op in meerdere lagen. Elke laag vertegenwoordigt een bepaalde functie en definieert een abstract model. Elke laag die wordt toegevoegd, kan de informatie uit de voorgaande lagen gebruiken. Stel je dus voor dat je het algoritme wilt leren om een ​​afbeelding van een hond te herkennen. In dit geval kan de eerste laag er een zijn die vormen (cirkels, driehoeken, enzovoort) herkent. De tweede laag kan er een zijn die ogen kan identificeren (twee ovale vormen naast elkaar). De derde laag kan er een zijn die een gezicht herkent, enzovoort. Uiteindelijk kan het algoritme de afbeelding van een hond herkennen.” Hetzelfde principe kan worden toegepast op tekstuele bronnen zoals zinnen. 

Onlangs heeft de wereld kennis gemaakt met Transformer modellen (bijv. BERT, T5 en GPT-3); revolutionaire Deep Learning modellen die gegevens niet meer opeenvolgend (van begin tot eind) hoeven te verwerken. Deze modellen gebruiken namelijk een mechanisme dat bekend staat als attention om een grote tekst in één keer, tegelijk te verwerken. Deze innovaties hebben het taalkundig begrip van de recente modellen drastisch verbeterd en stellen ze in staat om eerdere modellen te overtreffen in een verscheidenheid aan taken. 

Een voorbeeld van een dergelijke taak is het voorspellen van het ontbrekende woord. Het voorspellen van ontbrekende woorden is handig omdat het het maken van een ​​enorme gegevensset vergemakkelijkt, simpelweg door een grote hoeveelheid tekst te nemen en woorden te maskeren. Om een ​​bruikbaar model te maken (zoals het beantwoorden van vragen op basis van een tekst), gebruikten onderzoekers veel kleinere datasets en trainden het model telkens opnieuw voor een specifieke taak (een proces dat bekend staat als fine-tuning). De AI-gemeenschap was stomverbaasd om te zien dat BERT beter presteerde dan alle bestaande AI-modellen op een breed scala aan NLP-taken!

Maar de nieuwste revolutie komt van het GPT-3-model. Een extreem krachtig model dat bestaat uit de enorme hoeveelheid van 175 miljard parameters. Het kan Engelse prompts begrijpen en kan teksten genereren zonder een enkel voorbeeld. Jelmer Wind, datawetenschapper bij Machine Learning Company, experimenteerde met het GPT-3-model door het te vragen een tekst te genereren die zich verzet tegen een menselijk politiek argument. Zonder een enkel voorbeeld (zero-shot training) was het GPT-3-model in staat om een ​​congruente tekst te genereren die een tegenargument voor het eerder genoemde menselijke politieke argument vertegenwoordigde. Dit vermogen is een direct resultaat van het verbeterde taalkundige begrip. 


Vanwege de enorme rekenkracht kunnen deze recente innovaties op het gebied van NLP mogelijk ook een negatieve impact hebben wanneer ze worden toegepast voor onethische doeleinden. Het GPT3-model kan bijvoorbeeld gemakkelijk worden overgehaald om voor alles te pleiten, hoe onethisch ook, op zo’n levensechte manier dat het vrijwel niet te onderscheiden is van een mens. Recente modellen zijn dus in staat mensachtige teksten te genereren die niet per se de waarheid hoeven te bevatten. Daarom is de toegang tot modellen als GPT-3 beperkt en moet er een evenwicht worden gevonden tussen technologische innovaties en onethische bedoelingen.

GPT-3 opende een nieuw hoofdstuk in Machine Learning, vooral vanwege de algemeenheidsfunctie. Tot nu toe werden neurale netwerken gebouwd voor specifieke taken (bijvoorbeeld vertaling), maar GPT-3 is niet taak-specifiek en heeft niet langer gespecificeerde datasets nodig. Wil je ook toegang krijgen tot GPT-3? Je bent niet de enige. De hype rondom het nieuwe Deep Learning model is enorm, en om toegang te krijgen tot een privé-bèta, kom je eerst op een lange wachtlijst terecht. Zoals eerder vermeld , zijn er nog geen plannen voor algemene beschikbaarheid. Desalniettemin is de voorganger, GPT-2, open-source en kan deze nu al door iedereen gebruikt worden!