Witold Kepinski - 17 juni 2025

Salesforce introduceert CRMArena-Pro voor realistische LLM-Agent evaluatie

Salesforce AI Research heeft een nieuwe mijlpaal aangekondigd in de evaluatie van Large Language Model (LLM) agents voor zakelijke toepassingen met de introductie van CRMArena-Pro. Deze innovatieve benchmark is ontworpen om een realistischer en holistischer beeld te geven van de prestaties van AI-agenten in diverse professionele omgevingen, en onthult aanzienlijke uitdagingen voor de huidige leidende LLM-modellen.

Salesforce introduceert CRMArena-Pro voor realistische LLM-Agent evaluatie image

Hoewel AI-agenten een revolutionair potentieel hebben voor bedrijven, wordt hun ontwikkeling gehinderd door een gebrek aan publiek beschikbare, hoogwaardige zakelijke data voor effectieve benchmarking. Bestaande benchmarks schieten vaak tekort op het gebied van realisme, datagelijkheid, agent-gebruiker interactie en dekking van verschillende bedrijfsscenario's en sectoren. CRMArena-Pro is ontwikkeld om deze hiaten te dichten.

CRMArena-Pro bouwt voort op de eerdere CRMArena-benchmark en breidt deze uit met negentien door experts gevalideerde taken. Deze taken omvatten een breed scala aan scenario's binnen klantverkoop, klantenservice en configure-price-quote (CPQ) processen, zowel voor Business-to-Business (B2B) als Business-to-Customer (B2C) interacties. Een cruciaal aspect van de nieuwe benchmark is de integratie van multi-turn interacties, geleid door diverse persona's, en de beoordeling van vertrouwelijkheidsbewustzijn.

De eerste experimenten met CRMArena-Pro tonen aan dat leidende LLM-agenten momenteel een succespercentage van slechts ongeveer 58% behalen in single-turn taken. Dit percentage daalt significant naar 35% in multi-turn instellingen, wat de complexiteit van langere, contextafhankelijke interacties benadrukt.

AI-modellen

Opvallend is dat onder de geëvalueerde zakelijke vaardigheden, "Workflow Execution" aanzienlijk beter presteert. Top-presterende agenten overtreffen hier een succespercentage van 83% in single-turn taken. Dit suggereert dat LLM's al behoorlijk bedreven zijn in het uitvoeren van gestructureerde, stapsgewijze processen. Echter, andere vaardigheden presenteren nog aanzienlijke uitdagingen, wat duidt op de noodzaak van verdere ontwikkeling op het gebied van nuanced begrip en adaptieve interactie.

De bevindingen van CRMArena-Pro onderstrepen de urgentie van het creëren van robuustere en contextbewuste LLM-agenten voor zakelijk gebruik. De benchmark zal een cruciale rol spelen bij het versnellen van onderzoek en ontwikkeling op dit gebied, door ontwikkelaars een gestandaardiseerde en realistische omgeving te bieden om de prestaties van hun AI-modellen te testen en te verbeteren.

"Met CRMArena-Pro bieden we een broodnodig instrument voor de gemeenschap om de ware capaciteiten van LLM-agenten in de complexe wereld van zakelijke interacties te meten," aldus een woordvoerder van Salesforce AI Research. "De resultaten laten duidelijk zien dat er nog veel werk te verzetten is, vooral op het gebied van multi-turn gesprekken en het omgaan met gevoelige informatie. We zijn ervan overtuigd dat deze benchmark zal bijdragen aan de ontwikkeling van intelligentere en betrouwbaardere AI-oplossingen voor bedrijven wereldwijd."

De introductie van CRMArena-Pro markeert een belangrijke stap voorwaarts in het realiseren van het transformatieve potentieel van AI-agenten in het bedrijfsleven, door een fundament te leggen voor rigoureuze evaluatie en continue verbetering, aldus Salesforce.

Lees meer details hier.

Digital Realty 28/05/2025 t/m 25/06/2025 BN + BW Veeam 10/06/2025 t/m 01/07/2025 BN + BW
Digital Realty 28/05/2025 t/m 25/06/2025 BN + BW