Redactie - 21 juni 2016

Kosten van data

Big data Data Storage

Het maken en opslaan van data kost geld. En omdat we steeds meer data produceren, lopen de kosten flink in de papieren. Volgens IDC verdubbelt elke twee jaar de hoeveelheid data die we maken, en we naderen dan ook een tipping point dat niet alles meer kan worden opgeslagen. Niet alleen uit technische en kostenoverwegingen, maar vooral vanwege datamanagement uitdagingen. Hoe die enorme hoeveelheden data te organiseren en managen?

Wat kost data?
Het kost gemiddeld tussen de vier dollar en honderd dollar om een gigabyte data over zijn hele levensduur op te slaan. Van creatie naar actief gebruik, vervolgens passief gebruik en dan volgt definitieve archivering of vernietiging. Dit alles afhankelijk van de policy van de organisatie hoe data te beschermen, compliant te houden, het noodzakelijke risicomanagement en hoe uiteindelijke de juiste governance te realiseren. Gemiddeld kost – volgens een studie van ESG uit 2014 – een gigabyte ongestructureerde data 25 dollar gedurende het totale leven van die data in een gemiddelde onderneming.

Natuurlijk proberen we de data zo efficiënt mogelijk op te slaan, maar dat is niet het belangrijkste. Het is veel erger dat veertig tot zeventig procent van alle data die we opslaan weinig of geen waarde heeft. En het probleem is, dat we niet precies weten waar die veertig tot zeventig procent precies ligt. Besparen op het opslaan van zinnige data levert uiteindelijk meer op dan de goedkoopste opslag te vinden. Het is dus zaak te (kunnen) determineren welke data werkelijke waarde vertegenwoordigt.

Bron van data
Om te weten of data waarde heeft, is het enorm belangrijk de bron van die data te kennen. Door wie werd die data om welke reden gegenereerd? We kennen dit principe natuurlijk vanuit het gebruik van metadata in de wereld van content-management. Maar dan spreken we al snel over gestructureerde data en daar ligt het probleem niet. Het is de enorme hoeveelheid ongestructureerde data die we genereren, die het probleem oplevert en waar we dus ‘achteraf’ van moeten kunnen bepalen of het wel of geen toekomstige waarde heeft.

De data die we binnenhalen, moeten we dus bij binnenkomst direct categoriseren. Data komt niet uit de hemel vallen en komt via bekende routes de organisatie binnen. Via medewerkers, email, data-abonnementen, searches, onderzoeken, data-mining en allerhande berichten komen bergen ongestructureerde data de onderneming binnen. Hoe eerder men die data oormerkt, hoe beter men achteraf de potentiele waarde kan inschatten. Het is de eerste stap naar serieuze data-governance.

Cloud management
Niet alle data staat meer in eigen datacenters. In toenemende mate wordt data verspreid over verschillende cloud-omgevingen. Naast de eigen private cloud ook bij partners die hun managed cloud-omgevingen aanbieden en natuurlijk ook bij veel publieke cloud-leveranciers. Steeds meer hoor ik de vraag komen: waar staat welke data nu eigenlijk? Alleen bij ons zelf of bij een partner? Of ook wat kopieën bij publieke leveranciers of alleen nog maar bij zo’n public cloud? Het aantal kopieën van data is de afgelopen jaren enorm gegroeid, terwijl we het overzicht van al die kopieën langzamerhand kwijtraken. Zeker in publiek cloud-omgevingen is een kopietje meer of minder al snel uit het oog verloren.

Veel organisaties kiezen voor de goedkope opslag bij publieke cloud-leveranciers maar hebben niet in de gaten dat het merendeel van die opgeslagen data (uiteindelijk) weinig of geen waarde (meer) heeft voor de organisatie. En dan gooi je het voordeel van die goedkopere opslag weg met het badwater. En met de huidige groei van data heeft dat twee belangrijke consequenties:

1-Data verplaatsen kost tijd
Hoe groter data wordt, hoe langer het duurt het te verplaatsen. Daarnaast zijn de kosten van het terughalen van data uit publieke clouds duurder naarmate het meer betreft. Dus hoe groter, hoe langer het duurt en hoe hoger de kosten zijn. Dat we – als die data eenmaal bij de publieke cloud-leverancier staat – daar noodgedwongen onze informatiediensten uitvoeren, is handig, maar kan ook in gedwongen winkelnering omslaan.

In mijn blog over de ‘aantrekkingskracht van data’ heb ik hier al eerder over geschreven. Big Data is om verschillende reden een uitdaging: welke data is nu of in de toekomst echt waardevol, waar staat die data en kan ik die goedkoop benaderen en gebruiken. Tenslotte, hoe kan ik verschillende – bijna niet meer verplaatsbare – grote databestanden toch in samenhang gebruiken? Voor allerhande analyses bijvoorbeeld.

2-Overbodige data bewaren is zinloos
We zullen steeds meer data moeten vernietigen. Allereerst direct na het genereren, als het zijn functie heeft uitgevoerd. Een email aan het hele bedrijf dat er gebak is in de kantine, hoeft niet bij alle medewerkers tientallen jaren te worden bewaard. Het zijn eenmalige berichten die na enkele dagen mogen worden vernietigd.

Vervolgens na het actieve gebruik van data en informatie in bijvoorbeeld projecten, waar na afloop alleen definitieve versies of eindresultaten hoeven te worden bewaard. Meestal niet meer dan enkele procenten van alle projectdata die nodig was om tot dat resultaat te komen.

De archivaris
Ik heb in het artikel ‘Hoe het allemaal begon, een terugblik uit 2023’ een keer uitgelegd hoe belangrijk de rol van de archivaris is. Hij of zij is in een organisatie de enige échte eindgebruiker van informatie. Deze functionaris moet aan het eind van de levenscyclus van informatie (en dat is dus heel veel digitale data tegenwoordig) beslissen of iets moet worden bewaard en gearchiveerd of mag – of zelfs moet – worden vernietigd. Echter als deze functionaris niets weet over de bron of de inhoudelijke waarde van die informatie, kan hij die beslissing niet nemen en dus bewaren we het maar…

De ‘total cost of ownership’
In een digitale organisatie is het steeds lastiger je kosten te alloceren naar enkele ingrediënten van de informatie-infrastructuur. Een cloud is een nutsvoorziening die zich soms kostentechnisch anders gedraagt dat je in eerste instantie denkt. We zien dat ook in de elektriciteitswereld, waar de kostenallocatie – nu we naast centraal ook privé en dus decentraal energie gaan opwekken – opeens tot vreemde, onverwachte kostenverschuivingen leidt.

Een OPEX-gebaseerde diensteneconomie zoals de cloud, vraagt andere kostenmodellen dan een CAPEX-investeringseconomie. Die nieuwe modellen helder krijgen, is een uitdaging in onze groeiende cloud en datawereld. Daar hoort inzicht in het adequaat beheren en opruimen van data zeker bij.

Door: Hans Timmerman, CTO van EMC Nederland

Tip de redactie