Command Palette
Search for a command to run...
DeepEyesV2 : Vers un modèle multimodal agissant
Jack Hong Chenxiao Zhao ChengLin Zhu Weiheng Lu Guohai Xu Xing Yu

Résumé
Les modèles multimodaux agents ne devraient pas se contenter de comprendre le texte et les images, mais doivent également être capables d’activer activement des outils externes, tels que des environnements d’exécution de code ou des recherches sur le web, et d’intégrer ces opérations dans leur processus de raisonnement. Dans ce travail, nous présentons DeepEyesV2 et explorons la construction d’un modèle multimodal agissant sous trois angles : la construction des données, les méthodes d’entraînement et l’évaluation du modèle. Nous observons que l’apprentissage par renforcement direct s’avère insuffisant pour induire un comportement robuste d’utilisation d’outils. Ce phénomène motive l’adoption d’un pipeline d’entraînement en deux étapes : une phase de démarrage à froid visant à établir des schémas d’utilisation d’outils, suivie d’une phase d’apprentissage par renforcement permettant d’affiner davantage l’activation d’outils. Nous avons constitué un jeu de données d’entraînement diversifié et modérément exigeant, comprenant spécifiquement des exemples où l’utilisation d’outils s’avère bénéfique. Nous introduisons également RealX-Bench, un benchmark complet conçu pour évaluer le raisonnement multimodal dans des scénarios du monde réel, qui suppose nécessairement l’intégration de multiples capacités, telles que la perception, la recherche et le raisonnement. Nous évaluons DeepEyesV2 sur RealX-Bench ainsi que sur d’autres benchmarks représentatifs, démontrant ainsi son efficacité dans des tâches réelles, le raisonnement mathématique et les tâches intensives en recherche. En outre, DeepEyesV2 montre une activation d’outils adaptative aux tâches : il privilégie les opérations sur images pour les tâches de perception et les calculs numériques pour les tâches de raisonnement. L’apprentissage par renforcement permet par ailleurs d’exploiter des combinaisons complexes d’outils et d’activer de manière sélective les outils en fonction du contexte. Nous espérons que cette étude pourra guider la communauté dans le développement de modèles multimodaux agents.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.