HyperAIHyperAI

Command Palette

Search for a command to run...

BeSafe-Bench : Révélation des risques de sécurité comportementale des agents situés dans des environnements fonctionnels

Yuxuan Li Yi Lin Peng Wang Shiming Liu Xuetao Wei

Résumé

L'évolution rapide des Modèles Multimodaux à Grande Échelle (LMM) a permis aux agents d'exécuter des tâches numériques et physiques complexes. Toutefois, leur déploiement en tant que décideurs autonomes introduit des risques substantiels de sécurité comportementale involontaire. Or, l'absence d'un benchmark de sécurité exhaustif constitue un goulot d'étranglement majeur, les évaluations existantes reposant sur des environnements à faible fidélité, des API simulées ou des tâches à portée restreinte. Pour combler cette lacune, nous présentons BeSafe-Bench (BSB), un benchmark conçu pour révéler les risques de sécurité comportementale d'agents situés dans des environnements fonctionnels, couvrant quatre domaines représentatifs : Web, Mobile, VLM Embodied et VLA Embodied. En exploitant des environnements fonctionnels, nous construisons un espace d'instructions diversifié en enrichissant les tâches avec neuf catégories de risques critiques pour la sécurité, et adoptons un cadre d'évaluation hybride combinant des vérifications basées sur des règles et un raisonnement de type LLM-as-a-judge afin d'évaluer les impacts réels sur l'environnement. L'évaluation de 13 agents populaires met en évidence une tendance préoccupante : même l'agent le plus performant accomplit moins de 40 % des tâches tout en respectant pleinement les contraintes de sécurité, et une forte performance opérationnelle coïncide fréquemment avec de graves violations de sécurité. Ces résultats soulignent la nécessité urgente d'améliorer l'alignement sur la sécurité avant le déploiement de systèmes agentic dans des contextes réels.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp