Data mining is pas echt zinvol als het wordt aangevuld met text mining
20 september 2019 -
Dat data in potentie een schat aan informatie bezitten, is geen heel groot geheim meer. Binnen veel organisaties zijn dataspecialisten dan ook naarstig bezig met wat ook wel data mining genoemd wordt.
Data mining is de zoektocht naar bruikbare, relevante databronnen voor business intelligence-toepassingen. Wat niet iedereen weet, is dat data mining een belangrijk deel van de schat aan informatie buiten beschouwing laat. Data mining is pas echt zinvol als het wordt aangevuld met een complexere variant: text mining.
Cyrill Tiwon, Director Presales Benelux & Nordics bij OpenText, vertelt over het verschil tussen data mining en text mining. "Data mining en text mining hebben allebei een andere aanpak wanneer het op analytics aankomt. Wat ze echter gemeen hebben, is dat ze allebei niet op één technologie leunen, maar gebruikmaken van verschillende methodes om beschikbare data om te zetten in waardevolle inzichten en kennis."
Data mining
Bij gestructureerde data kan een combinatie van statistieken, kunstmatige intelligentie en machine learning worden toegepast, met verschillende doeleinden:
Associatie bepaalt hoe waarschijnlijk het is dat twee zaken (ongeveer) tegelijkertijd voorkomen in de toekomst. Bijvoorbeeld; bij salestrajecten kan de associatiefunctie het patroon van het tegelijkertijd kopen van melk en cornflakes aan het licht brengen.
Classificatie laat patronen zien die worden gebruikt om de klasse te voorspellen waarin de data belanden. Denk hierbij aan weersvoorspellingen die aangeven of het zonnig of bewolkt zal zijn op basis van weersomstandigheden.
Clustering structureert data op basis van overeenkomsten en groepeert het in clusters om zo nieuwe feiten over die data te herkennen. Dit wordt bijvoorbeeld gebruikt voor marktsegmentatie.
Regressie voorspelt een waarde in cijfers aan de hand van variabelen uit een bepaalde dataset. Zo wordt de prijs van een tweedehandsauto bepaald op basis van kilometerstand en andere variabelen.
Analytics en business intelligence platforms kunnen snel informatie herkennen en terugvinden in grote sets gestructureerde data en door data mining modellen creëren die descriptive, predictive en prescriptive analytics mogelijk maken.
Text mining
Bij text mining komt er een extra tussenstap aan te pas. "Aangezien de data nog ongestructureerd is, moet er eerst structuur worden aangebracht om het te kunnen analyseren," zegt Tiwon. "Hier is slimme statistische en taalkundige techniek voor nodig; zo kan een breed spectrum aan ongestructureerde tekstuele dataformats worden geanalyseerd en voorzien van metadata, zoals auteur, datum, en inhoud." Dit proces wordt doorgaans gelinkt aan een AI-techniek genaamd Natural Language Processing, waardoor het systeem de betekenis in mensentaal begrijpt. De metadata is cruciaal in het structureren van dit soort data. Zodra de data eenmaal voorzien is van meta-tags en gedefinieerd is, kunnen machines deze data lezen en analyseren.
De voordelen van data en text mining
Aangezien data mining gebruik maakt van het gestructureerde deel van de bedrijfsdata, levert deze methode vooral operationele en bedrijfsvoordelen. Bijvoorbeeld: het analyseren van data uit IoT-systemen om zo onderhoud van fabrieksmateriaal in te plannen, of het combineren van verkoopcijfers uit het verleden met klantgedrag om zo verkoopgedrag en de daarbij behorende vraag te voorspellen.
Text mining gaat volgens Tiwon nog een stapje verder: "Door grote hoeveelheden content te bundelen tot eenvoudig behapbare informatie krijg je inzicht in wat er over je wordt gezegd." Een veelgebruikte variant van text mining is Sentiment analysis, waarmee ude meningen en opvattingen van klanten en partners over uw bedrijf kunt monitoren door social content te analyseren.
Tot voor kort werd bij de meeste bedrijven voor het analyseren van data vanzelfsprekend voor data mining gekozen, aangezien dat meer grip geeft op de gestructureerde data. Er is echter een kentering gaande. De datavolumes rijzen de pan uit, het gros daarvan is ongestructureerd. Bedrijven weten inmiddels dat ze gebruik moeten maken van text mining om de waarde die in content en ongestructureerde communicatie verstopt zit, te benutten.
"In deze nieuwe wereld vol big data zijn de meeste bedrijven op zoek naar de ultieme combinatie van gestructureerde en ongestructureerde data om betere zichtbaarheid en inzicht in hun bedrijf en processen te krijgen," aldus Tiwon. "Om daadwerkelijk beslissingen te kunnen nemen op basis van data, is zowel data als text mining onmisbaar."
Experimenteren met deze instellingen is cruciaal voor het vinden van de optimale waarden die de visuele aantrekkingskracht vergroten en tegelijkertijd het gewenste niveau van realisme behouden.