HyperAI

Les modèles multimodaux (MMML) ont connu une croissance exponentielle ces dernières années, offrant des capacités allant de la description d'images à la compréhension de vidéos, donnant l'impression qu’ils peuvent tout faire. Cependant, ces performances spectaculaires nous amènent à nous poser une question cruciale : comprennent-ils réellement ce qu'ils voient ou leur réussite est-elle superficielle ? Pour répondre à cette interrogation, le professeur Yang Liu, exécutif de l’Institut de l’Intelligence Artificielle appliquée de Tsinghua (AIR), s’est associé au Département d’Informatique de Tsinghua et à l’Université Fudan pour créer EscapeCraft, une plateforme novatrice. Ce projet, qui sera présenté à la conférence internationale de vision par ordinateur (ICCV) 2025, propose un environnement de 3D simulant des jeux d'évasion, conçu pour évaluer la capacité des MMML à raisonner et à prendre des décisions dans des situations visuelles complexes et multistep. L'environnement EscapeCraft EscapeCraft génère automatiquement des scènes 3D flexibles, permettant aux modèles de naviguer librement et d’accomplir diverses tâches pour s'échapper. Ces actions incluent la recherche de clés, l’ouverture de boîtes, la résolution de codes et, bien sûr, l'évasion finale. Chaque étape nécessite que les modèles intègrent des informations visuelles, spatiales et logiques, simulant ainsi des défis similaires à ceux auxquels serait confronté un être humain. L'environnement peut être configuré avec différents styles de pièces, des longueurs et des niveaux de difficulté variés pour les chaînes d'objets, ainsi qu'étendu à d'autres tâches telles que les questions-réponses, la déduction logique et la reconstruction de narration. Cette flexibilité en fait une plateforme d'évaluation générale, pouvant être itérée et améliorée continuellement, en soutenant les recherches futures en intelligence artificielle, en raisonnement multimodal et en apprentissage par renforcement. Évaluation des Modèles Contrairement aux méthodes d'évaluation traditionnelles qui se concentrent uniquement sur la vérification du résultat final, EscapeCraft évalue l'ensemble du processus de tâche. Le système examine si le modèle explore de manière autonome, s'il commet des erreurs répétitives et s'il utilise correctement les objets. Ainsi, il mesure non seulement l'efficacité du modèle, mais aussi sa façon de penser, s’assurant qu’il comprend réellement les éléments visuels et spatiaux. Parmi les indicateurs clés utilisés : Consistance entre l’intention et le résultat (Intent-Outcome Consistency) : évalue si les actions du modèle correspondent à ses intentions, c'est-à-dire s'il "fait les bonnes choses au bon endroit". Prop Gain / Prop Grab Ratio / GSR : analyse le comportement du modèle lors de l'exploration et de la déduction, reflétant la qualité de l'interaction, l'efficacité de la déduction et le niveau d'intelligence. Résultats et Observations Les résultats des évaluations ont été surprenants et parfois amusants. Par exemple, même les modèles les plus avancés, comme GPT-4o, ont eu des performances mitigées : - Ils voyaient souvent la porte mais contournaient constamment les murs sans y accéder. - Ils ramassaient des clés mais oubliaient comment les utiliser. - Certains tentaient de "saisir" des canapés, convaincus qu'il pourrait y avoir des compartiments secrets. Ces échecs soulignent une vérité importante : voir n'équivaut pas à comprendre. Pour GPT-4o, à la difficulté 3, seulement 26.5% des sous-objectifs ont été réalisés grâce à une véritable compréhension, les autres étant le fruit du hasard, comme le fait de manquer la télévision et capturer accidentellement l'objet-clé. De nombreuses erreurs intéressantes ont également été identifiées. Par exemple, 61.1% des erreurs de Claude 3.5 étaient liées à des problèmes de déduction, tandis que 38.9% étaient attribuables à des problèmes de perception visuelle. Cela montre clairement que même si les modèles "voient" leurs environnements, cela ne signifie pas qu'ils "pensent" correctement. Comparaison des Modèles La figure ci-dessous présente les résultats statistiques d’escaping pour une unique pièce, à trois niveaux de difficulté croissante : Les modèles testés comprennent GPT-4o, Gemini-1.5 Pro, Claude 3.5, LLaMA-3.2, Qwen et Phi-3. Les performances varient grandement selon les niveaux de difficulté, avec des succès partiellement basés sur la chance et non sur une compréhension véritable et cohérente. Conclusion L'émergence d'EscapeCraft marque un pas significatif dans l'évaluation des modèles multimodaux, en mettant l'accent sur la qualité et la profondeur de leur raisonnement plutôt que sur des mesures purement quantitatives. Ce cadre d'évaluation innovant ouvre la voie à des recherches plus poussées, aidant à identifier et à résoudre les limitations actuelles des modèles en matière de perception visuelle et de réflexion complexe. En résumé, alors que les MMML semblent capables de tout, il est crucial de continuer à les mettre à l'épreuve pour garantir qu'ils comprennent non seulement ce qu'ils voient, mais aussi comment raisonner et agir de manière cohérente. EscapeCraft est un outil essentiel pour atteindre cet objectif. Liens Utiles Page de projet : https://thunlp-mt.github.io/EscapeCraft GitHub : https://github.com/THUNLP-MT/EscapeCraft

Liens associés

Liens associés

Liens associés

Command Palette

Évasion 3D avec EscapeCraft : Testez la Capacité des Modèles Multimodaux à Résoudre des Tâches Complexes

Liens associés

Command Palette

Évasion 3D avec EscapeCraft : Testez la Capacité des Modèles Multimodaux à Résoudre des Tâches Complexes

Liens associés

Command Palette

Évasion 3D avec EscapeCraft : Testez la Capacité des Modèles Multimodaux à Résoudre des Tâches Complexes

Liens associés