Witold Kepinski - 18 september 2025

CWI helpt VN gevoelige data uit crisisplatform te filteren

Het Centrum Wiskunde & Informatica (CWI) heeft een methode ontwikkeld die nauwkeurig gevoelige gegevens filtert uit de enorme hoeveelheden data van het Humanitarian Data Exchange (HDX) platform van de Verenigde Naties. Deze data zijn onmisbaar voor hulpverlening, maar kunnen ook gevaarlijk zijn als gevoelige informatie in verkeerde handen valt.

CWI helpt VN gevoelige data uit crisisplatform te filteren image

Het openbare dataplatform van de Verenigde Naties (VN) bevat ruim 19.300 datasets, geüpload vanaf 254 crisisgebieden van over de hele wereld. Lokale overheden delen er hun data, variërend van conflicten en oorlogen tot overstromingen en andere natuurrampen. Op basis van deze informatie faciliteert de VN de coördinatie van lokale humanitaire hulp.De datasets bevatten uiteenlopende gegevens, bijvoorbeeld over personen, gebouwen en locaties. “Organisaties zetten deze op het dataplatform zonder zich te realiseren dat bepaalde data schadelijk kunnen zijn als ze in verkeerde handen terechtkomen”, legt onderzoeker Madelon Hulsebos uit, die verbonden is aan de Database Architectures groep van CWI. “Denk bijvoorbeeld aan de coördinaten van ziekenhuizen in oorlogsgebieden, die daardoor een doelwit kunnen worden. Dit soort data moet er dus worden uitgefilterd.”

AI als oplossing

Eerder onderzoek van Hulsebos toonde aan dat kunstmatige intelligentie (AI) patronen kan zien in een grote verscheidenheid aan gestructureerde datasets. Op basis van dit inzicht wendde ze AI aan om een oplossing te ontwikkelen voor het HDX-project.Hulsebos en AI Masterstudent Liang Telkamp ontwikkelden twee mechanismen die data op gevoeligheid analyseren. Ze introduceerden daarin een nieuw concept: contextueel gevoelige data. “Gevoelige data zijn meer dan alleen persoonsgegevens. Bepalend is of de informatie in verkeerde handen schade kan veroorzaken”, licht Hulsebos toe. “Ook kan gevoeligheid tijdgebonden zijn: misschien waren bepaalde gegevens 5 jaar geleden niet gevoelig, maar in deze tijd wel. Of plaatsgebonden: de coördinaten van een ziekenhuis in Nederland zijn minder gevoelig dan die van een ziekenhuis in Gaza. De context van een dataset is dus heel belangrijk.”Voor een van de AI-mechanismen gebruikten de onderzoekers tekstdocumenten van de VN waarin regels staan over de omgang met data; welke gegevens mogen niet gepubliceerd worden en welke wel? AI koppelde de datasets aan de juiste regels. Vervolgens lieten de onderzoekers diverse LLM’s (Large Language Models, bijvoorbeeld GPT-4 maar ook open source modellen als Qwen) de betreffende regels lezen en op basis daarvan bepalen of de set gevoelige data bevatte.

VN-bijeenkomst in oktober

Hulsebos: “We zagen dat ons LLM-gedreven mechanisme vele malen beter werkt dan een tool van Google die de VN gebruikten. Zo detecteerde Google DLP 63 procent van de gevoelige persoonsgegevens, terwijl ons systeem tot 94 procent kwam.” Door het meegeven van de VN-richtlijnen over gevoelige data, werden de LLM’s bovendien een stuk nauwkeuriger. Het aantal vals-positieven halveerde daardoor.Inmiddels heeft de VN besloten om de mechanismen in zijn dataplatform te integreren. In oktober zal Hulsebos hierover een presentatie geven tijdens een VN-bijeenkomst in Barcelona.

Andere toepassingen

“Het mooie van deze mechanismen is dat ze ook buiten de VN toepasbaar zijn, bijvoorbeeld op cloudplatforms waar enorme hoeveelheden data worden gedeeld, van bedrijfsgevoelige financiële gegevens tot overheidsdata”, zegt Hulsebos. “Veel publieke data-portals leveren input voor de training van AI-modellen. En ook daar wil je geen gevoelige informatie aantreffen.”

Netsec banners BN + BW Axians BN BW september oktober 2025
Gartner BN tm 12-11-2025 - 1