Hans Steeman - 13 april 2023

lakeFS schept helderheid bij versie beheer

Het beheer van versies is zeker bij data een complexe aangelegenheid. Data lakes lopen vol en elke keer als er iets aangepast wordt ontstaan er nieuwe kopieën. Om die versies beheersbaar te houden zijn maatregelen nodig. Tijdens de recente IT Press Tour in Israël bezochten we de startup Treeverse dat met lakeFS een open source project heeft dat versie management voor data mogelijk maakt.

lakeFS schept helderheid bij versie beheer image

Tijdens het bezoek werd Dutch IT Channel bijgepraat door de CEO Einat Orr en CTO Oz Katz (foto). Treeverse is een van origine Amerikaans bedrijf (Santa Monica, Californië) met 28 medewerkers en heeft de ontwikkelafdeling in Tel Aviv. Het bedrijf is in 2020 gestart.

Einat heeft een heldere boodschap: “lakeFS open source project dat data engineers versiebeheer en branching mogelijkheden biedt op hun data lakes via een GIT-achtige versiebeheer interface.”

Wat betekent dit in de praktijk? Vandaag de dag kopiëren de meeste bedrijven hun gegevens na nieuwere versies en verbruiken zo steeds meer opslag, het verschil met lakeFS is dat er geen gegevens worden gekopieerd en daarom op opslag wordt bespaard. Einat claimt dat dit een reductie oplevert van de opslagkosten met 20-80%. Er is ook een flinke verbetering van de efficiëntie van ingenieurs, eenvoudige restore van gegevens naar eerdere gegevensversies wanneer iemand een fout maakt en weer een oudere versie van de gegevens nodig heeft. Tenslotte is er een snel herstel (restore) van de data mogelijk in geval van productiestoring.
Het strikte versie management biedt ook voordelen bij het voldoen aan GDPR en andere compliance-eisen, omdat je als beheerder/gebruiker altijd moet bewijzen wat je hebt veranderd. Dit betekent in de praktijk dat men de originele records veilig moet stellen.

Aangezien data voortdurend veranderen, helpt lakeFS bij het beheer van gegevens en kan het ook versies van de data vergelijken. LakeFS kopieert geen gegevens, maar is een hulpmiddel op basis van metadata dat gegevens repliceert en pointers maakt naar bestanden. Er is een evidente scheiding van gegevens en metadata.

LakeFS is volledig open source en gratis. Treeverse wil geld verdienen met ondersteuning die wordt aangeboden als abonnement op maandbasis.

Door: Hans Steeman