Command Palette
Search for a command to run...
BeSafe-Bench : Révélation des risques de sécurité comportementale des agents situés dans des environnements fonctionnels
BeSafe-Bench : Révélation des risques de sécurité comportementale des agents situés dans des environnements fonctionnels
Yuxuan Li Yi Lin Peng Wang Shiming Liu Xuetao Wei
Résumé
L'évolution rapide des Modèles Multimodaux à Grande Échelle (LMM) a permis aux agents d'exécuter des tâches numériques et physiques complexes. Toutefois, leur déploiement en tant que décideurs autonomes introduit des risques substantiels de sécurité comportementale involontaire. Or, l'absence d'un benchmark de sécurité exhaustif constitue un goulot d'étranglement majeur, les évaluations existantes reposant sur des environnements à faible fidélité, des API simulées ou des tâches à portée restreinte. Pour combler cette lacune, nous présentons BeSafe-Bench (BSB), un benchmark conçu pour révéler les risques de sécurité comportementale d'agents situés dans des environnements fonctionnels, couvrant quatre domaines représentatifs : Web, Mobile, VLM Embodied et VLA Embodied. En exploitant des environnements fonctionnels, nous construisons un espace d'instructions diversifié en enrichissant les tâches avec neuf catégories de risques critiques pour la sécurité, et adoptons un cadre d'évaluation hybride combinant des vérifications basées sur des règles et un raisonnement de type LLM-as-a-judge afin d'évaluer les impacts réels sur l'environnement. L'évaluation de 13 agents populaires met en évidence une tendance préoccupante : même l'agent le plus performant accomplit moins de 40 % des tâches tout en respectant pleinement les contraintes de sécurité, et une forte performance opérationnelle coïncide fréquemment avec de graves violations de sécurité. Ces résultats soulignent la nécessité urgente d'améliorer l'alignement sur la sécurité avant le déploiement de systèmes agentic dans des contextes réels.