Command Palette
Search for a command to run...
PhysToolBench : Évaluation de la compréhension des outils physiques par les MLLM
Zixin Zhang Kanghao Chen Xingwang Lin Lutao Jiang Xu Zheng Yuanhuiyi Lyu Litao Guo Yinchuan Li Ying-Cong Chen

Résumé
La capacité à utiliser, comprendre et créer des outils constitue une caractéristique fondamentale de l’intelligence humaine, permettant une interaction sophistiquée avec le monde physique. Pour qu’un agent intelligent généraliste atteigne une véritable polyvalence, il doit également maîtriser ces compétences fondamentales. Bien que les modèles modernes de langage à grande échelle multimodaux (MLLM) exploitent leurs connaissances générales étendues pour la planification de haut niveau dans les systèmes d’intelligence artificielle incarnée (embodied AI) et dans les modèles ultérieurs Vision-Language-Action (VLA), l’étendue de leur véritable compréhension des outils physiques reste encore non quantifiée. Afin de combler cette lacune, nous proposons PhysToolBench, le premier benchmark dédié à l’évaluation de la compréhension des outils physiques par les MLLM. Ce benchmark est structuré comme un jeu de données de réponse à des questions visuelles (VQA) comprenant plus de 1 000 paires image-texte. Il évalue les capacités sur trois niveaux de difficulté distincts : (1) Reconnaissance d’outil : exigeant la reconnaissance de la fonction principale d’un outil ; (2) Compréhension d’outil : testant la capacité à saisir les principes fondamentaux du fonctionnement d’un outil ; (3) Création d’outil : défiant le modèle de concevoir un nouvel outil à partir d’objets environnants lorsque les solutions conventionnelles ne sont pas disponibles. Notre évaluation approfondie de 32 MLLM — couvrant des modèles propriétaires, open-source, spécialisés pour l’IA incarnée, ainsi que des architectures de base (backbones) utilisées dans les modèles VLA — révèle une lacune importante dans la compréhension des outils. En outre, nous fournissons une analyse détaillée et proposons des solutions préliminaires. Le code source et le jeu de données sont accessibles publiquement.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.