10 juni 2024

Archiveren: een hoogwaardige sexy sport?

Onze realtime informatiewereld vraagt om ‘realtime archivering van brondata’. Dit is nodig om alle huidige datastromen herleidbaar en terugvindbaar te kunnen archiveren. Er is een realtime keuze van bronnen en stromen vooraf nodig, omdat het onmogelijk is alle daaruit voortkomende exploderende streamingdata fysiek ergens op te slaan. Er is wereldwijd simpelweg niet genoeg opslagruimte beschikbaar. Dit betekent dat we razendsnel keuzes moeten maken over wat we wel en niet willen – of moeten – bewaren. Het vak archiveren wordt strategisch. Het vak wordt zelfs sexy en artistiek als je denkt aan online archivering om op reproduceerbare wijze AR- en VR-getoonde media vast te leggen. Daarnaast creëert centraal beheerde, realtime archivering een gelijke informatiepositie voor iedereen die recht heeft om die data te vinden en in te zien. Het groeiend aantal online datastromen stelt nieuwe en andere eisen aan archivering om de vastgelegde data later nog te kunnen reconstrueren naar de context waarin die data werd gecreëerd, gecommuniceerd en gebruikt.

Data Data management Storage

Archiveren: een hoogwaardige sexy sport? image

De Ball Metaverse index

De metaverse komt langzaam onze maatschappij binnen. Naast onze bekende fysieke wereld ontstaan digitaal gecreëerde, virtuele werelden. Werelden die ons – in symbiose met onze fysieke wereld – dagelijks omringen. Het gebruik van sociale media maar ook gaming, is voor velen al een dagelijkse ‘realiteit’ van een virtuele omgeving. Digitale werelden voor ontwerpen, kunst, retail, vermaak en oorlogsvoering bestaan ook al lang. Een opkomende markt die al miljarden euro’s groot is. De Ball Metaverse index toont de bedrijven die voorop lopen in de ontwikkeling van metaverse technologie.

Wie staan op die Ball Metaverse index? Bovenaan staat Roblox, maar verrassend op de tweede plaats staat chip-producent Nvidia. Naast Meta zien we natuurlijk Microsoft, Amazon en Apple. Stuk voor stuk investeren zij miljarden in virtuele technologie waarvan we de afgeleide techniek als maatschappij – langzaam maar onomkeerbaar – gaan gebruiken en omarmen. Virtuele, gezamenlijk beheerde en gevormde ruimtes (of netwerken van ruimtes) waarin mensen samen komen om sociale contacten te leggen en om virtuele evenementen zoals concerten, werk en games bij te wonen. De metaverse sluit nauw aan bij het concept van Web 3.0. Aangezien metaverse een simulatie is van de echte wereld met digitale bezittingen, geld, identiteiten en ‘vastgoed’, zal ook hier data moeten worden vastgelegd en dus gearchiveerd. Dit vanuit de wenselijkheid ook deze werelden wettig en ordentelijk te kunnen besturen en eenduidig en herleidbaar vast te leggen.

Datavastlegging in de metaverse

De handel in cryptomunten, tokens en bezit (NFT’s) wordt momenteel in de vorm van blockchain-opslag vastgelegd. Er evolueert een markt die niet meer gecentraliseerd is en waar gebruikers praktisch alles online kunnen creëren, controleren en daarna monetariseren. Twintig jaar geleden was ik actief in Second Life, één van de eerste virtuele werelden met avatars die virtueel eigen grond, huizen en goederen bezaten of maakten. Met een eigen munt ‘de Linden’ die je kon kopen en inwisselen tegen dollars. Ik heb uit die oude simpele virtuele wereld nog in text-files vastgelegde conversaties en afbeeldingen. Maar die oude wereld weer online terugroepen of construeren, is schier onmogelijk. De metaverse had en heeft nog geen archief.

Over blockchain heb ik uitputtend geblogd. Blockchains bevatten gedistribueerde, in de tijd vastgelegde, encrypte transacties. In die zin is het een onveranderlijke tijdlijn en audit-trail uit het verleden. Maar het is eerder een register dan een archief. Naast de kale registraties van transacties geeft het nauwelijks een beeld en een context van dat verleden. Interoperabele open standaarden om digitale artefacten voor de toekomst te behouden, ontbreken nog. Virtuele werelden gebruiken – net als bij de opkomst van digitalisering – snel verbeterende en dus veranderende bestandsformaten en protocollen, waardoor het lastig is om informatie onderling te delen. Laat staan daarmee een ordentelijk archief is op te bouwen.

Realtime archivering lost veel problemen op

Net als de eerste digitalisering leidde tot gaten in ons verleden – ‘digitale dementie’ – zal dat ons met de groei van streaming data waarschijnlijk ook overkomen. Maar een gewaarschuwd mens telt voor twee: dus het is hoogste tijd om over realtime archiveren na te denken. Hoe we vluchtige chatberichten en beelden op een efficiënte en compliant manier gaan vastleggen, opdat we ze in de toekomst gestructureerd kunnen terugroepen? Niet alleen historisch belang, maar vooral in het kader van waarheidsvinding en daarbij behorende dossiervorming. Immers, net als in de fysieke wereld zal misdaad, fraude en oplichting in deze virtuele online wereld welig tieren. Hoe organiseer je nu al de forensische mogelijkheden voor toekomstige digitale fraude en misdaad?

Via onze overheid moeten we als maatschappij deze digitale toekomst reguleren en wettelijk vastleggen. Er zijn archiefplatformen nodig om onze ‘digitale werkelijkheden’ vast te leggen en te conserveren. Democratisch toegankelijke documenten, berichten en momentopnamen van belangrijke virtuele gebeurtenissen en handelingen. Denk naast de reeds gigantische stroom chatdata ook aan de exploderende stroom IoT-data van alle dingen om ons heen. Data die in mirror-worlds zoals digitaal twins onsdigitaal een beeld van de werkelijkheid tonen. Op basis waarvan we beslissingen hebben genomen. Dus waarvan de daarbij gebruikte brongegevens goed en onveranderlijk opgeslagen zullen moeten zijn. Hoe gaan we dat doen? Hebben we überhaupt al schaalbare archiefsystemen die dat kunnen?

Archiveren: een hoogwaardige sport

Miljarden berichten en gegevens archiveren en toch de relaties tussen en context van die stroom van events en gebeurtenissen bewaren, stelt hoge eisen aan datamanagement. Het vraagt Formule 1 prestaties en daarvoor zijn mensen, systemen en platformen van F1 niveau nodig. ‘By design’ ontworpen om ongeëvenaarde prestaties te leveren. Maar technisch en economisch toch haalbaar en schaalbaar zijn. Onze huidige content management systemen, ontstaan eind vorige eeuw, zijn hier nooit voor ontworpen. Prima om documentenstromen vast te leggen en te beheren. Maar je moet ze niet vragen snel chatverkeer en zeker niet metaverses vast te leggen en te beheren. Dat is prestatietechnisch een totaal andere league.

Die league vraagt naast hoogwaardige processoren, zoals Nvidia maakt, ook hoogwaardige software die daar op draait. De ‘engine’ van elke software is de programmeertaal waarmee het is geschreven. Dus geen hoogontwikkelde, administratieve programmeertalen, maar snelle, eenvoudige en wiskundig gebaseerde talen zoals LISP. Een praktische wiskundige notatie voor snelle programma’s en al lange tijd geliefd in de snelle wereld van AI. Een broncode gebaseerd op vector-beheerde lijsten. Die een datastructuur met boomstructuren, takken, bladeren, automatisch opslagbeheer manipuleert. Met eenvoudige functies hogere orde schema’s realiseert. De perfecte interne ‘engine’ voor supersnelle AI én archiefsystemen.

Clojure: een modern LISP dialect

De behoefte aan lichtvoetige broncodes zoals LISP heeft zo’n tien jaar geleden geleid tot de ontwikkeling van Clojure, een dialect van LISP met wat extra C⁺ mogelijkheden en draaiend op Java gebaseerde virtual machines. De C, L en J vormden al snel een woordspeling op de command-line ‘closure-compiler’. De afgelopen jaren zien we het gebruik van Clojure groeien hoewel er wereldwijd nog maar enkele tienduizenden programmeurs zijn die deze taal beheersen. Een nieuwe league vraagt nieuwe spelers met nieuwe talen en gereedschappen.

Door: Hans Timmerman (foto)

Tip de redactie