Wouter Hoeffnagel - 16 juni 2024

DataBricks LakeFlow automatiseert beheer van datapipelines

Data- en AI-bedrijf Databricks introduceren Databricks LakeFlow. Met LakeFlow kunnen datateams data op schaal opnemen uit databases als MySQL, Postgres en Oracle, en zakelijke applicaties als Salesforce, Dynamics, Sharepoint, Workday, NetSuite en Google Analytics. Databricks introduceert ook de Real Time Mode voor Apache Spark voor datastreaming met ultralage latency.

DataBricks LakeFlow automatiseert beheer van datapipelines image

LakeFlow automatiseert de uitrol, werking en bewaking van pipelines op schaal in productieomgevingen, met ingebouwde ondersteuning voor CI/CD en workflows die triggering, branching en voorwaardelijke uitvoering ondersteunen. Monitoring van datakwaliteit en -gezondheid zijn geïntegreerd met waarschuwingssystemen zoals PagerDuty. LakeFlow vereenvoudigt het bouwen en beheren van data-pipelines.

Complex proces

Datateams moeten gegevens ophalen uit gescheiden en vaak bedrijfseigen systemen zoals databases en bedrijfsapplicaties. Daarvoor moeten vaak complexe en kwetsbare connectoren worden ontwikkeld. Bovendien moet bij de datavoorbereiding complexe logica worden onderhouden, terwijl storingen en latencypieken kunnen leiden tot operationele uitval en ontevreden klanten. Voor het implementeren van data-pipelines en de bewaking van de datakwaliteit zijn meestal dan ook aanvullende, ongelijksoortige tools nodig, wat het proces complex maakt.

LakeFlow pakt deze uitdagingen aan door alle aspecten van data-engineering te vereenvoudigen via één uniforme ervaring, gebouwd op het Databricks Data Intelligence Platform. Ook zijn integraties beschikbaar met Unity Catalog voor end-to-end governance en serverless computing voor efficiënte en schaalbare uitvoering.

Drie pijlers

De drie pijlers van LakeFlow zijn:

  • LakeFlow Connect: schaalbare datavergaring vanuit elke bron. LakeFlow Connect biedt diverse native, schaalbare connectoren voor databases als MySQL, Postgres, SQL Server en Oracle, en bedrijfsapplicaties als Salesforce, Dynamics, Sharepoint, Workday en NetSuite. Deze connectoren zijn geïntegreerd met Unity Catalog. LakeFlow Connect bevat de efficiënte low-latency prestaties van Arcion, dat in november 2023 door Databricks werd overgenomen. Bovendien maakt het alle data beschikbaar voor batch- en realtime analyses, ongeacht grootte, formaat of locatie.
  • LakeFlow Pipelines: maakt het in realtime automatiseren van data-pipelines mogelijk. LakeFlow Pipelines is gebouwd op de schaalbare Delta Live Tables-technologie van Databricks. Hiermee kunnen datateams datatransformatie en ETL implementeren in SQL of Python. Klanten kunnen nu de Real Time-modus inschakelen voor low-latency streaming zonder codewijzigingen. LakeFlow maakt handmatige orkestratie overbodig en verenigt batch- en streamverwerking. Met LakeFlow Pipelines kunnen ook complexe streaming- en batchdatatransformaties eenvoudig worden gebouwd en beheerd.
  • LakeFlow Jobs: workflow-orkestratie op het Data Intelligence Platform. LakeFlow Jobs biedt geautomatiseerde orkestratie, datagezondheid en datalevering, van het plannen van notebooks en SQL-query's tot ML-training en automatische dashboardupdates. Het biedt verbeterde control flow-mogelijkheden en volledige zichtbaarheid, waarmee dataproblemen kunnen worden opgespoord, gediagnosticeerd en beperkt voor een grotere betrouwbaarheid van de pipeline. LakeFlow Jobs automatiseert de implementatie, orkestratie en monitoring van data-pipelines op één plek, wat datateams helpt bij het realiseren van beloofde dataleveringen.

Beschikbaarheid LakeFlow is binnenkort beschikbaar in preview, te beginnen met LakeFlow Connect. Databricks-klanten kunnen zich hier aanmelden voor de wachtlijst.

Tanium BW 08/10/2024 - 01/11/2024 Vertiv BW 17-10 tm 31-10-2024
Tanium BN+BW 8/10/2024 - 01/11/2024