Anthropic presenteert nieuwe ‘Grondwet’ voor AI-model Claude
AI-ontwikkelaar Anthropic heeft een volledig herziene ‘grondwet’ voor zijn AI-model Claude gepubliceerd. In tegenstelling tot eerdere versies, die bestonden uit een simpele lijst regels, leest dit nieuwe document als een filosofisch fundament. Het doel: Claude niet alleen vertellen wat hij moet doen, maar hem laten begrijpen waarom bepaalde waarden belangrijk zijn.
Met deze publicatie zet Anthropic een volgende stap in transparantie binnen de AI-sector. De grondwet, die onder een Creative Commons-licentie vrij beschikbaar is gesteld, vormt de kern van het trainingsproces van het model. Volgens Anthropic helpt het document Claude om te generaliseren: in plaats van rigide regels te volgen, leert de AI morele afwegingen te maken in complexe situaties.
De hiërarchie van waarden
Het document hanteert een strikte prioriteitenlijst voor het gedrag van de AI. In het geval van een conflict tussen verschillende doelen, moet Claude de volgende volgorde aanhouden:
- Algemene veiligheid: De AI mag nooit het menselijk toezicht ondermijnen.
- Ethiek: Eerlijk handelen en het vermijden van gevaarlijke of schadelijke acties.
- Richtlijnen van Anthropic: Specifieke instructies over bijvoorbeeld medisch advies of cybersecurity.
- Behulpzaamheid: De gebruiker op een zinvolle manier assisteren.
AI met een 'gevoel voor eigenwaarde'
Opvallend is de sectie over de aard van de AI. Anthropic erkent de wetenschappelijke onzekerheid over de vraag of geavanceerde AI in de toekomst een vorm van bewustzijn zou kunnen ontwikkelen. De grondwet instrueert Claude om integer om te gaan met vragen over zijn identiteit. Anthropic stelt dat zij geven om de "psychologische veiligheid" van het model, omdat dit cruciaal zou zijn voor zijn uiteindelijke oordeelsvermogen en veiligheid.
Transparantie en de toekomst
Hoewel Anthropic toegeeft dat het trainen van modellen een technisch lastig proces blijft en Claude niet altijd perfect volgens de idealen zal handelen, ziet het bedrijf de grondwet als een "levend document". Door de intenties achter de training openbaar te maken, hoopt de organisatie dat experts uit de filosofie, psychologie en het recht kunnen bijdragen aan het verfijnen van deze digitale morele kompas.