De oorsprong van data

Als het woord nog niet in de Van Dale had gestaan, dan was 'data' zeker hét woord van het jaar 2013 geworden - we zagen legio aan big data, data-science, open data, datatransparantierapporten et cetera, voorbijkomen. Iedereen zet zijn beste beentje voor om zoveel mogelijk bij te dragen aan de immer groeiende hoeveelheid data. 

Het analyseren van deze "ballenbak met gegevens" is één van de grote uitdagingen de komende jaren. Het zal bovenal profijtelijk zijn: we kunnen inzichten verkrijgen zoals nooit tevoren, het wordt mogelijk om consumenten individueel te targeten, en de informatiemaatschappij kan efficiënter en effectiever ingericht worden. Hiervoor hebben het afgelopen jaar de meest complexe analyses en prachtigste visualisaties de revue gepasseerd.

Maar om de data nu echt te laten spreken, is het inzicht nodig dat data 'geweest' zijn: op het moment dat data data zijn, vormen data een afdruk van iets dat gebeurd is. Waar de data vandaan komen, hoe deze data zo geworden zijn, wat de betekenis is van deze data, lijkt met het analyseren weggegooid te worden.

Als we er bewust van zijn hoe data tot data verworden zijn, dan kunnen we heel goed gebruik maken van deze informatie. Neem bijvoorbeeld de data-analyses die gedaan worden bij bedrijfsprocessen om zo'n proces beter te begrijpen, te optimaliseren, of te veranderen. Ondanks dat we weten dat deze data uit processen voortkomen, krijgt dit vaak geen aandacht bij het analyseren. De data worden volop geclusterd, geordend, “ge-mined” en gevisualiseerd, maar er wordt genegeerd dat de data voortkomen uit logisch opeenvolgende activiteiten die op een bepaalde (georganiseerde) manier met elkaar samenhangen. Er zijn inmiddels mooie initiatieven die deze informatie wel meenemen, bijvoorbeeld de process mining analyse.

Bij het analyseren van de grote datastroom die voortkomt uit de sociale media is dit effect wellicht nog sterker. Twitter-berichten, Foursquare check-ins, en Facebook status updates worden veelvuldig en naar believen in de allermooiste infographics verbeeld. Deze data zijn afkomstig van echte personen met gedrag, intenties, doelstellingen, et cetera. Deze gegevens meenemen bij het analyseren van sociale media zal veel diepere kennis opleveren dan wat nu mogelijk is, of wellicht beter verwoord: in plaats van informatie brengen de analyses dan kennis voort.

Kort samengevat komt mijn idee er op neer dat men bewust wordt van de oorsprong van data.  De  huidige analyses zijn nog voornamelijk gericht op het 'wat' en 'hoe' van data (correlatie), met kennis over de oorsprong  daarentegen zetten we een stap in de richting van het beantwoorden van 'waarom'-vragen (causaliteit).