HyperAI
il y a 8 jours

Zebra-CoT : Un jeu de données pour le raisonnement multimodal vision-langage intercalé

Ang Li, Charles Wang, Kaiyu Yue, Zikui Cai, Ollie Liu, Deqing Fu, Peng Guo, Wang Bill Zhu, Vatsal Sharan, Robin Jia, Willie Neiswanger, Furong Huang, Tom Goldstein, Micah Goldblum
Zebra-CoT : Un jeu de données pour le raisonnement multimodal vision-langage intercalé
Résumé

Les humains utilisent souvent des supports visuels, tels que des schémas ou des dessins, lorsqu'ils résolvent des problèmes complexes. Former les modèles multimodaux à faire de même, appelé Chaîne de Pensée Visuelle (Visual CoT), est difficile en raison de : (1) une performance insuffisante des modèles existants de Visual CoT, ce qui entrave l'apprentissage par renforcement, et (2) le manque de données d'entraînement de qualité pour le Visual CoT. Nous introduisons Zebra-CoT, un ensemble de données diversifié et à grande échelle comprenant 182 384 échantillons, contenant des séquences de raisonnement textuel-image logiquement cohérentes. Nous nous concentrons sur quatre catégories de tâches où le dessin ou le raisonnement visuel est particulièrement naturel, couvrant des questions scientifiques telles que la géométrie, la physique et les algorithmes ; des tâches de raisonnement visuel 2D comme la recherche visuelle et les puzzles en morceaux ; des tâches de raisonnement 3D incluant l'inférence multi-étapes en 3D, le planification incarnée et robotique ; et des problèmes de logique visuelle ainsi que des jeux stratégiques comme le jeu d'échecs. L'adaptation fine du modèle Anole-7B sur le corpus d'entraînement Zebra-CoT entraîne une amélioration de +12 % dans l'exactitude de notre ensemble de tests, et permet d'atteindre un gain de performance allant jusqu'à +13 % sur les évaluations standard des modèles multimodaux (VLM). L'adaptation fine du modèle Bagel-7B produit un modèle capable de générer des chaînes de raisonnement visuel de haute qualité, soulignant l'efficacité de Zebra-CoT pour le développement des capacités de raisonnement multimodal. Nous mettons à disposition librement notre ensemble de données et nos modèles afin de soutenir le développement et l'évaluation du Visual CoT.