Datawetenschap wordt mainstream: vijf gebruikstips
16 juni 2016 -
Er is vrijwel geen enkel bedrijf dat geen data verzamelt. Of het nou een groot oliebedrijf is dat door middel van sensoren mogelijke vervuiling registreert of de plaatselijke bakker die bijhoudt welke klant welk brood koopt, iedere organisatie erkent de waarde die in data verscholen ligt.
"Het verzamelen is echter niet de moeilijkheid; dat zit hem in het bewerken en analyseren van de juiste data, in de algoritmes en de modellen", zegt Jules Oudmans, director consultancy bij UREASON. Hij geeft vijf tips waar managers rekening mee moeten houden als ze aan de slag gaan met data.
Behoefte
Het aantal data scientists is nog beperkt. Wel gaan universiteiten – wat betreft opleiding – steeds meer in de behoefte voorzien. Daarnaast komen er steeds meer laagdrempeliger tools op de markt, waarmee managers de eerste stappen in data science kunnen zetten. Maar hoewel de mogelijkheden voor de zogenaamde Citizen Data Scientist toenemen, blijft het een ingewikkeld proces. En is het aan te raden een vaste strategie te volgen.
Oudmans: "Big data is inmiddels een alom bekende term. Maar hoe we omgaan met die enorme hoeveelheden gegevens zodat er effectief waarde uit is te verkrijgen, is nog niet voor alle organisaties duidelijk. Dat is ook niet zo gek. Als het niet tot uw core business behoort, dan vergt het nogal wat investeringen in tijd, technologie en resources om er succesvol in te zijn. Daarom is het verstandig om van tevoren goed na te gaan wat er allemaal bij komt kijken."
1. Start met wat het bedrijf voorhanden heeft
"Een eerste advies dat ik managers dan ook graag wil meegeven, is om te starten met de data die de organisatie al voorhanden heeft. Achterhaal welke data worden verzameld en opgeslagen. Deze data bieden immers al vaak voldoende inzichten. De ervaring leert namelijk dat bedrijven die data science-projecten opzetten, veelal starten met het verkrijgen van nieuwe data. Denk aan het plaatsen van sensoren of door het koppelen van meerdere, externe databronnen. Natuurlijk komen uit dit soort technieken mooie data naar voren, maar daarmee ziet een organisatie wel de al aanwezige informatie over het hoofd. Terwijl managers hoogstwaarschijnlijk al heel veel van deze gegevens kunnen leren en zo hun bedrijfsprocessen kunnen optimaliseren. Nieuwe data verzamelen is altijd nog in een later stadium mogelijk. Begin dus met de data die er al zijn."
2. Data harmoniseren
Een tweede stap om data klaar te stomen voor analyse is het vergelijkbaar maken van de gegevens. "Data scientists of managers zullen eerst de data allemaal in hetzelfde formaat moeten gieten, om vervolgens corrupte data te verwijderen en de grootheden in de data (zoals volume, snelheid en lengte) te harmoniseren," stelt Oudmans. "Data die immers niet met elkaar overeenkomen, zijn onvergelijkbaar. En data komen uit verschillende bronnen (statistieken afkomstig van het CBS, Twitterfeeds, historische bronnen en gegevens uit databases, et cetera). Bij dit proces komt een data scientist goed van pas. Want het schoonmaken van de data, ook wel data cleaning genoemd – vergt ervaring, kennis en kunde van de diverse databronnen. Geen opgeschoonde data, betekent een verkeerde start voor analyse."
3. Definieer de business requirements
Het is voor managers erg belangrijk om de verzamelde data te begrijpen, te weten wat deze data inhouden en welke processen worden gestuurd door die data. Dan is namelijk pas te bepalen wat hun organisatie ermee kan en welke databronnen daadwerkelijk bruikbaar zijn. Dus voor het uitvoeren van nuttige analyses, zal men eerst de business requirements moeten definiëren.
Oudmans: "Stel dat een bedrijf als business requirement heeft om achter de redenen te komen waarom een bepaalde machine faalt. Bovendien willen zij op basis van die gevonden informatie voorspellingen kunnen doen over het toekomstige falen van dat specifieke apparaat. Als de reden van analyse is gedefinieerd, pas dan kunt u op zoek naar de data die geanalyseerd moeten worden. Daardoor weet de manager immers dat alleen de faalhistorie niet voldoende is om een volledig antwoord te krijgen. Het is ook nodig om andere facetten in ogenschouw te nemen die een correlatie hebben met het falen van de machine. Dit kunnen gegevens zijn over het gebruik ervan of slijtagedata. Vervolgens moet de data scientist beoordelen of die correlatie kan worden herleid tot een causaal verband. Daarna is een uitkomst als logisch gevolg te koppelen aan het ander, en kunnen er conclusies worden getrokken. Dit is een essentieel – niet te onderschatten – onderdeel van datawetenschap. Correlaties zeggen op zichzelf niets. Causale verbanden vertellen daarentegen wel iets over de relatie tussen verschillende data. En daarmee verkrijgt de manager uiteindelijk antwoord op de vraag vanuit de business."
4. Breng de datacontext in kaart
Naast het vastleggen van de business requirements en het leren begrijpen van de data zelf, is het voor managers ook nodig om de datacontext in kaart te brengen.
"Een dataset zit vrij technisch in elkaar en om zinvolle analyses er op los te laten, moet de gedachte erachter duidelijk zijn. In het voorbeeld van het falen van een apparaat gebruiken we veelal machine learning-technieken. Deze zijn geënt op statistiek. Een dataset geeft daarbij bijvoorbeeld met een nul of een een aan of de machine aan of uit staat. Maar de aan/uit-informatie heeft statistisch gezien weinig tot geen verband met het wel of niet falen van het apparaat. Wilt uw bedrijf de faalkans voorspellen, dan zijn die data op dat moment irrelevant. Heeft u echter geleerd dat het apparaat alleen kan falen als hij aan staat, dan zijn de data uiteraard ineens wel relevant. Daarom is het zeer van belang om de context in kaart te brengen: om te weten welke data ertoe doen en welke bepalend zijn voor het beantwoorden van de onderzoeksvraag."
5. Classificeer om te kunnen voorspellen
"Hoewel predictive analytics – het voorspellen op basis van data-analyses - steeds meer aan populariteit wint, komt er voor de beginnende datawetenschapper nog veel bij kijken. Een laatste advies aan de managers die ermee aan de slag gaan, is dan ook om de data te classificeren. Dit is nodig om voorspellingen te doen. Neem wederom het voorbeeld van het falen van een apparaat. Allereerst moeten managers kijken naar de faalhistorie en daarnaast moeten ze voldoende ‘faaldata’ verzamelen. Faaldata vormen het digitale bewijs van een storing bij een machine en geeft ook de reden van die storing weer. Die data zullen eerst geclassificeerd moeten worden, wil de manager vervolgens voorspellingen over het falen willen doen. Het product van classificeren is in dit geval een classificatie van falen. Die gekwalificeerde data is dan bruikbaar voor het ontwikkelen van een voorspellend model."
Kansloos
"Het opzetten van data science-programma’s omdat het hot is, is kansloos. Hier zijn echt gerichte bedrijfsdoelstellingen voor nodig, begrip van de verzamelde data en begrip van de processen die daarachter schuil gaan. Houdt daar dus rekening mee mocht u aan de slag gaan met data science," concludeert Oudmans.