HyperAI

Ensemble De Données D'inférence Texte-image Zebra-CoT

Date

il y a 3 jours

Organisation

Université de Californie du Sud

URL de publication

huggingface.co

Aide au téléchargement

Zebra-CoT est un ensemble de données de raisonnement en langage visuel publié conjointement par l'Université de Columbia, l'Université du Maryland, l'Université de Californie du Sud et l'Université de New York en 2025. Les résultats de l'article associé sont "Zebra-CoT : un ensemble de données pour le raisonnement en langage de vision entrelacé", qui vise à promouvoir le modèle pour mieux comprendre la relation logique entre les images et les textes, et est largement utilisé dans des domaines tels que la réponse visuelle aux questions et la génération de descriptions d'images pour aider à améliorer la capacité de raisonnement et la précision.

L'ensemble de données contient 182 384 échantillons répartis en quatre catégories principales : raisonnement scientifique, raisonnement visuel 2D, raisonnement visuel 3D et jeux de logique et de stratégie visuelle. Ces échantillons contiennent des traces de raisonnement texte-image entrelacées, logiquement cohérentes.

Structure du jeu de données :

  • Description du problème : une description textuelle du problème.
  • Image de la question : Selon la nature de la question, celle-ci peut être accompagnée de zéro ou de plusieurs images.
  • Images de raisonnement : Il existe au moins une ou plusieurs aides visuelles qui soutiennent les étapes de raisonnement intermédiaires dans le processus de résolution de problèmes.
  • Piste de raisonnement textuel : une série de réflexions textuelles et de croquis visuels correspondants ou d'espaces réservés aux diagrammes.
  • Réponse finale : solution au problème.

Carte de distribution des champs de l'ensemble de données