Data scientists besteden 80 procent van hun tijd aan opschonen en structuren data
'Dirty data' grootste uitdaging voor professionals
14 mei 2019 -
De meeste data professionals geven aan dat het opschonen en structureren van data nog steeds de grootste uitdaging is op hun vakgebied. Data scientists geven zelfs aan dat zij maar liefst 80 procent van hun tijd hieraan besteden.
Dit blijkt uit onderzoek van Dataiku. Het onderzoek bevestigt hiermee dat de markt voor op machine learning gebaseerde intelligentie, nog steeds in de kinderschoenen staat.
Het feit dat data professionals ‘dirty data’ als hun grootste uitdaging zien is helaas niet nieuw. Alle functies die deelnamen aan het onderzoek, van data scientists, data analisten, team managers tot andere data professionals, gaven aan dat ze hier nog dagelijks mee worstelen. Als tweede grootste uitdaging werd genoemd toegang tot databronnen, ook een fundamentele vereiste.
Beperken in productiviteit
Het is niet verrassend dat data professionals zoals data scientists en analisten het verbinden van databronnen vaker als een uitdaging beschouwen dan leidinggevenden van datateams. Ditzelfde geldt voor het in productie brengen van modellen. Voor hen zijn dit immers zaken die zij dagelijks tegenkomen en die hen beperken in hun productiviteit. Dit betekent ook dat de belangrijkste dataproblemen niet gaan over welk model gebruikt moet worden of zelfs hoe er het best samengewerkt kan worden door het datateam en de stakeholders.
"Voor data professionals zijn deze onderzoeksresultaten wellicht niet bijzonder, ze bevestigen alleen de uitdagingen waarmee zij iedere dag te maken hebben," zegt Hylke Visser, Director Sales & Business Development bij Dataiku. "Toch vinden we het belangrijk hier aandacht aan te schenken. Niet alleen omdat de spaarzame tijd van data scientists en andere data professionals slimmer gebruikt kan worden, maar ook omdat data de basis is van succesvolle toepassing van AI en machine learning. Organisaties moeten zich realiseren dat het essentieel is dit snel op orde te krijgen. Alleen zo kunnen zij echt profiteren van de kansen die AI en machine learning bieden."
Wie is verantwoordelijk voor data?
Dataiku ging tijdens het onderzoek ook in op de vraag waar de verantwoordelijkheid voor de data ligt. Slechts zestien procent van de respondenten geeft aan dat iedereen verantwoordelijk is. Dit is deels zorgwekkend aangezien de regels rond de bescherming en het gebruik van data steeds strikter worden en data juist vaker een gedeelde verantwoordelijkheid wordt. Onderwerpen als vertrouwen, transparantie en ethiek worden veel gebruikt als het gaat om machine learning en AI. Het belang van een gezamenlijk verantwoordelijkheidsgevoel voor de data van de organisatie wordt daarmee ook duidelijker. Als er te weinig mensen verantwoordelijk worden gehouden, dan werkt dit verkeerd gebruik en fouten juist in de hand.
Als het gaat om de verantwoordelijkheid voor data science (analytics) in organisaties, werd door de meeste respondenten aangegeven dat iedereen hier op een bepaalde manier verantwoordelijk voor is. Dit is een positief teken voor de toekomst. Het betekent dat men zich realiseert dat voor de transformatie naar een datagedreven organisatie meer nodig is dan alleen data beschikbaar stellen voor bestaande activiteiten. Het gaat om een fundamentele organisatieverandering waarbij data in alle processen van het bedrijf moet zijn verweven.