Anno 2021 hebben bedrijven in retail steeds meer data tot hun beschikking. Data over hun bedrijfsprocessen, klanten, producten, vrijwel elk aspect van moderne bedrijfsvoering is onderhevig aan grote hoeveelheden data aan de achterkant. Deze data kan vervolgens worden gebruikt om op een rationele en onderbouwde manier knopen door te hakken en strategische beslissingen te nemen. Verder kan deze data worden gebruikt om bijvoorbeeld het verkoopproces te optimaliseren of klanten te voorzien van een betere service. Kortom, data is van onschatbare waarde voor bedrijven die mee willen bewegen met een digitaal paradigma dat zich constant aan het verschuiven is.

Echter, enkel de aanwezigheid en kwantiteit van data is niet genoeg om te spreken van Data driven value creation, de kwaliteit van de aanwezige data is net zo belangrijk aangezien incomplete data of data van  slechte kwaliteit alleen zal leiden tot incongruente conclusies en ongenuanceerde beslissingen. Deze blog zal dan ook verder ingaan op de extractie van data en op welke manier het verrijken van data de kwaliteit – en daarmee het gebruik van data – ten goede komt.

Product Named Entity Recognition


‘Product Named Entity Recognition’ beter bekend als; P-NER is een methode om informatie te extraheren uit grote, ongestructureerde, en tekstuele data. P-NER slaagt erin om data te classificeren in categorieën die vooraf dienen te worden gedefinieerd. Een voorbeeld om het gebruik van P-NER te illustreren kan bijvoorbeeld te maken hebben met producten die bestaan uit meerdere, verschillende eigenschappen. Zo heeft een televisie bijvoorbeeld een merk, afmeting, gewicht, resolutie, enzovoort. Deze eigenschappen worden vervolgens geclassificeerd onder de bijbehorende categorieën die vooraf zijn gedefinieerd. P-NER vereist echter nog steeds traditionele machine learning methoden en een aanzienlijke menselijke bijdrage die uiteraard niet wenselijk is. Deep learning zou hier de oplossing voor kunnen zijn op twee verschillende manieren die hieronder worden toegelicht.

Hybrid Bidirectional Long Short-Term Memory


‘Hybrid Bidirectional Long Short-Term Memory’ – in het kort; BI-LSTM – is een P-NER toepassing die bestaat uit drie verschillende lagen, namelijk: ‘input representation’, ‘context decoder’, en ‘tag decoder’. De eerste laag helpt een model om data te kunnen begrijpen en goed te kunnen interpreteren, de tweede laag maakt het mogelijk om afbeeldingen te verwerken door de input als het ware ‘uit te vouwen’ tot verschillende, onderliggende structuren en eigenschappen. De laatste laag doet hetzelfde als de tweede laag maar dan voor tekstuele input.

BERT


BERT (Bidirectional Encoder Representations from Transformers) is een taalmodel dat erin slaagt om teksten zodanig te begrijpen en te contextualiseren dat er op basis van verbanden die worden gelegd tussen woorden, bepaalde woorden een waarde kunnen worden toegekend. In het verlengde van Feature extraction kan deze waarde bijvoorbeeld inhouden dat een woord wordt herkend als eigenschap. In de zin; “De auto is gespoten in een blauwe tint die je doet denken aan de Azuur.”‘gespoten’, ‘azuur’, en ‘tint’ zeggen alle drie iets over het woord ‘blauwe’, aan de hand van trainingsdata kan BERT deze woorden met elkaar in verband leggen en zo de kleur ‘blauw’ herkennen als eigenschap. Dit hele simpele voorbeeld laat zien hoe een taalmodel als BERT kan worden gebruikt om het extraheren van producteigenschappen uit ongestructureerde tekst mogelijk te maken. Hoe meer trainingsdata een model als BERT tot zijn beschikking heeft, hoe accurater deze manier van Feature extraction is.

Data Enrichment


Zoals eerder werd aangestipt dient data van goede kwaliteit ten grondslag te staan aan het extraheren van producteigenschappen om daadwerkelijk te kunnen spreken van Data driven value creation. Data kan uiteraard handmatig worden verrijkt, dit is echter een karwei dat niet alleen tijdrovend is, maar ook onderhevig aan menselijke fouten. Om dit te voorkomen dient data na verrijking te worden gecontroleerd op inconsistenties en andere foutieve eigenschappen, dit is wederom een intensieve taak waardoor het gehele proces achter de handmatige verrijking van data terechtkomt in een neerwaartse spiraal van inefficiëntie op het gebied van tijd, middelen, en kosten.

PowerEnrich.ai


PowerEnrich betrekt als software zowel de extractie als het verrijken van data om een alomvattende benadering op Data driven value creation mogelijk te maken op een autonome en simpele manier. PowerEnrich maakt het mogelijk om data te extraheren uit vier verschillende soorten bronnen, namelijk afbeeldingen, tekst, PDF’s, en webpagina’s. Dankzij slim gebruik van AI slaagt de PowerEnrich software erin om data te herkennen en begrijpen ongeacht het gebruik van afkortingen, verschillende spellingsvormen, of uitdrukkingen.

Kortom, PowerEnrich slaagt erin om bedrijven te helpen hun productdata en producteigenschappen sneller en beter te verwerken. Daarnaast maakt PowerEnrich het dus mogelijk om dankzij het verrijken van data gedetailleerdere en uitgebreidere productbeschrijvingen mogelijk te maken met als gevolg betere vindbaarheid van producten, een toename in sales, en een betere klantervaring.

Nieuwsgierig geworden naar hoe PowerEnrich uw bedrijf van dienst kan zijn? Neem contact met ons op om samen te kijken naar de mogelijkheden.

Door Lieske Trommelen