18 augustus 2014 -
In een eerder artikel ging Henk Brands, Business Unit Manager Business Intelligence bij Info Support, al kort in op de ‘IT-hype’ Big Data, een onderwerp waar iedereen een paar jaar geleden opeens over wilde meepraten en waarover verschillende definities bestaan.
In dat artikel maakte hij duidelijk wat Big Data precies inhoudt. In dit artikel licht hij toe hoe u er zelf mee aan de slag kunt gaan: "Het klinkt namelijk zo eenvoudig: wil men beginnen met (het analyseren van) Big Data, dan zullen data eerst opgeslagen moeten worden. Ook als men nu nog niets met deze gegevens doet, is het verstandig om ze alvast te verzamelen - ook wel het aanleggen van een 'data lake' genoemd. Gelukkig worden veel gegevens ook al opgeslagen en bewaard: denk aan financiële cijfers, facturen, personeelsgegevens, weblogs en andere data die in een ERP-systeem kan worden opgeslagen. Ook wel gestructureerde data genoemd. De belangrijkste eerste stap die een bedrijf kan zetten op weg naar een succesvolle toepassing van Big Data is het toevoegen van ongestructureerde data aan gestructureerde data."
Combineren van data
Neem bijvoorbeeld een bouwbedrijf. In de bouwtekeningen die worden gebruikt, zit veel ongestructureerde informatie: van afmetingen en ophangsystemen tot aan het aantal stopcontacten dat aanwezig is. Brands: "Het combineren van dit soort informatie met gestructureerde data kan interessante inzichten opleveren en bijvoorbeeld de onderhoudskosten voorspellen."
Ongestructureerde data uit het verleden kan men (met terugwerkende kracht) boven water halen met business discovery en data visualisatie tools. Deze oplossingen zorgen ervoor dat ongestructureerde data meer gestructureerd wordt, doorzoekbaar is en dus ook visueel analyseerbaar.
Wat slaan we op?
Maar minstens net zo belangrijk is het om te bepalen welke ongestructureerde data men vanaf nu wil opslaan, en hoe deze het beste bewaard kan worden. "De vraag welke data belangrijk is om te bewaren en welke niet, is nog best ingewikkeld en zal in elke organisatie anders beantwoord worden," zegt Brands. "Een woningcorporatie zal bijvoorbeeld bijzonder geïnteresseerd zijn in data die iets zegt over noodzaak onderhoud aan een woning te plegen. Een eigenaar van een webshop is waarschijnlijk nieuwsgierig naar het profiel van bezoekers van zijn website en wie het meest geneigd is om bepaalde producten te kopen. Ook speelt wet- en regelgeving met betrekking tot privacy een belangrijke rol als het gaat om wat er opgeslagen en bewaard mag blijven."
De eerste stap is dus de vraag stellen welke informatie belangrijk is voor de business. Het spreekt voor zich dat dit een nauw overleg moet zijn tussen de business en IT. Vervolgens kan pas worden bepaald welke oplossing hierbij gaat passen.
Analyse
Nadat de data zijn opgeslagen, kunnen ze geanalyseerd worden. Dat is niets nieuws onder de zon. Het gebeurt al zolang er administratie en boekhouding bestaat: een jaarrekening analyseert bijvoorbeeld hoeveel geld er in een periode is binnengekomen in een organisatie en hoeveel er uit is gegaan, om de hoogte van de winst te kunnen bepalen.
"Men zou kunnen zeggen dat data-analyse zich tot voor kort bijna altijd richtte op het verklaren van het heden op basis van gegevens uit het verleden," licht Brands toe. "Een logische volgende stap is het voorspellen van de toekomst op basis van gegevens uit het verleden en heden - ook wel predictive analytics genoemd. Voorspellen is de ultieme manier om het bedrijfsresultaat te verbeteren; als succesvol wordt voorspeld wat de doelgroep gaat doen, kan het bedrijf daar op inspelen en proactief het aanbod daarop aanpassen."
Hoewel de complexiteit rondom Big Data nog steeds veel organisaties afschrikt om 'er iets mee te gaan doen', hoeft de drempel in werkelijkheid niet zo hoog te zijn. "Als u maar weet hoe u eraan moet beginnen: met het bewaren van data dus. Het analyseren van deze data is een volgende stap," besluit Brands.
Goed artikel over de voordelen en mogelijkheden van Big Data. Maar hoe houden we de enorme groei aan data bij? Niet alleen te denken aan data die bedrijven opslaan om gegevens te analyseren maar ook de duizenden foto's die elke dag weer op smartphones worden opgeslagen. In 2020 wordt verwacht dat er 35.000 exabyte aan data zal zijn. Daarom de terechte vraag ''wat slaan we op''. Data zal gefilterd moeten worden. Nuttige informatie halen uit enorme hoeveelheden complexe informatie is daarnaast een duur en arbeidsintensief proces. Daarnaast zal veel aandacht moeten worden besteed aan de vraag ''waar slaan we deze data op die continue beschikbaar moet zijn?''. Wat gebeurd er met capaciteitsproblemen? Er zullen grotere en betrouwbare datekanalen beschikbaar gesteld moeten worden. Het is belangrijk dat er gezocht blijft worden en aandacht besteed wordt aan efficiënte manieren om deze datatsunami op een duurzame manier op te slaan.