Command Palette
Search for a command to run...
Raisonnement à travers les frontières : amélioration de l'alignement des spécifications grâce à une délibération au moment du test
Haoran Zhang Yafu Li Xuyang Hu Dongrui Liu Zhilin Wang Bo Li Yu Cheng

Résumé
Les grands modèles linguistiques (LLM) sont de plus en plus utilisés dans divers scénarios du monde réel, chacun étant régulé par des spécifications comportementales et de sécurité (spec) personnalisées, adaptées aux besoins des utilisateurs ou des organisations. Ces spécifications, classées en spécifications de sécurité (safety-spec) et spécifications comportementales (behavioral-spec), varient selon les contextes et évoluent en fonction des préférences et exigences changeantes. Nous formalisons ce défi comme l’alignement sur les spécifications, en mettant l’accent sur la capacité des LLM à respecter, du point de vue comportemental et de sécurité, des spécifications dynamiques et spécifiques au contexte. Pour relever ce défi, nous proposons Align3, une méthode légère qui utilise une réflexion au moment du test (Test-Time Deliberation, TTD) basée sur une réflexion et une révision hiérarchiques afin de raisonner sur les frontières des spécifications. Nous introduisons également SpecBench, un benchmark unifié permettant de mesurer l’alignement sur les spécifications, couvrant 5 scénarios, 103 spécifications et 1 500 prompts. Des expérimentations menées sur 15 modèles de raisonnement et 18 modèles d'instruction, avec plusieurs méthodes TTD — dont Self-Refine, TPO et MoreThink — ont permis d’identifier trois constats clés : (i) la réflexion au moment du test améliore l’alignement sur les spécifications ; (ii) Align3 permet d’optimiser le compromis sécurité-utilité avec un surcoût minimal ; (iii) SpecBench révèle efficacement les écarts d’alignement. Ces résultats mettent en évidence le potentiel de la réflexion au moment du test comme stratégie efficace pour raisonner sur les frontières des spécifications dans des contextes du monde réel.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.