Gartner: AI faalt vaak niet door model, maar door gebrek AI-ready data
Iedere CIO heeft tegenwoordig de opdracht om AI-use cases te leveren die kritieke bedrijfsprioriteiten ondersteunen. Maar tussen de droom van geavanceerde AI en de werkelijkheid staat vaak een groot obstakel: de data. Tijdens een sessie op de Gartner IT Symposium Xpo conferentie in Barcelona over datastrategie waarschuwde Gartner-analist Roxane Edjlali (foto) dat data vaak de ontbrekende schakel is voor AI-succes. Haar boodschap: "Data is niet zomaar klaar voor AI omdat het in een datawarehouse staat. U moet het gebrek aan menselijke ervaring compenseren met details."
Waar het onderwerp 'data voor AI' twee jaar geleden nog een niche was, is het nu het nummer één gespreksonderwerp voor Edjlali bij organisaties. De kern van het probleem is een fundamenteel misverstand over hoe machines data consumeren in vergelijking met mensen.
Het muffin vs. chihuahua probleem
Edjlali illustreerde het verschil tussen menselijke en machinale perceptie met een treffende vergelijking: een foto van een blueberry muffin en een chihuahua. "Als mensen hoeven we die niet te eten of van dichtbij te bekijken om het verschil te zien," stelde Edjlali. "Wij hebben ervaring".
Een AI-model heeft die ervaring niet. AI bouwt zijn begrip op vanuit details. Om het verschil te zien, moet een machine getagd worden op elk detail: de neus, de ogen, de bessen. "Het grote probleem is dat de manier waarop we als mensen over data dachten voor analytics of bedrijfsprocessen, altijd gericht was op de menselijke gebruiker," aldus Edjlali. Mensen vullen gaten in de data op met hun eigen context en ervaring; AI kan dat niet en begint te hallucineren als die details ontbreken.
De mythe van 'Rubbish In, Rubbish Out'
Een veelgehoord dogma in data management is "rubbish in, rubbish out": slechte data leidt tot slechte AI. Edjlali nuanceert dit. Soms is "slechte" of "rommelige" data juist noodzakelijk omdat het de werkelijkheid weerspiegelt.
Ze gaf het voorbeeld van een bedrijf dat een chatbot bouwde voor productondersteuning. Voor producten met weinig problemen (en dus weinig data) verzon de AI hallucinaties omdat die producten ondervertegenwoordigd waren in de dataset. De oplossing was niet het opschonen van data, maar het genereren van synthetische data om de 'saaie' producten statistisch relevanter te maken. "Data readiness gaat niet over kwaliteit in het algemeen, maar over representativiteit voor de specifieke use case," aldus Edjlali.
De grote kloof tussen AI-specialisten en datamanagers
Er heerst een gevaarlijke perceptiekloof binnen organisaties. Uit cijfers van Gartner blijkt dat twee derde van de AI-specialisten denkt dat hun data 'AI ready' is. Echter, als je het aan de datamanagement-experts vraagt, denkt juist twee derde dat de data niet klaar is.
Dit komt doordat AI-teams vaak denken dat ze klaar zijn zodra een model werkt in een testomgeving (Proof of Concept). Maar data verandert. Edjlali noemde het voorbeeld van verzekeraars: als klimaatverandering niet in de modellen is verwerkt, klopt de risico-inschatting voor huisverzekeringen niet meer. "Je data is pas klaar als je continu toetst of deze nog representatief is voor de huidige situatie," waarschuwde ze.
Metadata is de sleutel
Hoe lost een CIO dit op? Het antwoord is niet "alle data verzamelen in een groot data lake" – dat leidt vaak tot een moeras zonder context. De eerste stap is investeren in metadata management.
"Als je de metadata niet op orde hebt, kun je niet beoordelen of de data geschikt is voor je AI-toepassing," stelde Edjlali. Ze adviseert organisaties om:
Automatisering toe te passen: Gebruik tools om continu de 'readiness' van data te scannen in plaats van handmatige checks.
Cross-functionele teams te bouwen: AI-specialisten en datamanagers moeten samenwerken met de business om te begrijpen wat de data betekent.
Governance dynamisch te maken: Regels voor datagebruik (zoals AVG/GDPR) kunnen veranderen; je governance moet flexibel genoeg zijn om mee te bewegen.
De conclusie van de sessie was bemoedigend: je hoeft geen perfecte datahuishouding te hebben om te beginnen met AI. "Je kunt gaandeweg leren," besloot Edjlali. "Maar maak van datamanagement en metadata een strategische prioriteit, anders blijft je AI hangen in de pilotfase".