HyperAI

Zebra-CoT-Datensatz Zur Text-Bild-Inferenz

Datum

vor 3 Tagen

Organisation

Universität von Südkalifornien

Veröffentlichungs-URL

huggingface.co

Download-Hilfe

Zebra-CoT ist ein Datensatz zum visuellen Sprachschlussfolgern, der 2025 gemeinsam von der Columbia University, der University of Maryland, der University of Southern California und der New York University veröffentlicht wird. Die zugehörigen Ergebnisse der Studie sind:Zebra-CoT: Ein Datensatz für Interleaved Vision Language Reasoning“, das darauf abzielt, das Modell zu fördern, um die logische Beziehung zwischen Bildern und Texten besser zu verstehen, und das häufig bei der Beantwortung visueller Fragen, der Generierung von Bildbeschreibungen und in anderen Bereichen verwendet wird, um die Denkfähigkeit und Genauigkeit zu verbessern.

Der Datensatz enthält 182.384 Beispiele aus vier Hauptkategorien: wissenschaftliches Denken, zweidimensionales visuelles Denken, dreidimensionales visuelles Denken sowie visuelle Logik- und Strategiespiele. Diese Beispiele enthalten logisch zusammenhängende, verschachtelte Text-Bild-Denkspuren.

Datensatzstruktur:

  • Problembeschreibung: Eine Textbeschreibung des Problems.
  • Fragebild: Je nach Art der Frage kann dieses von keinem oder mehreren Bildern begleitet sein.
  • Bilder zum Denken: Es gibt mindestens ein oder mehrere visuelle Hilfsmittel, die die Zwischenschritte des Denkens im Problemlösungsprozess unterstützen.
  • Textual Reasoning Track: Eine Reihe von Textreflexionen und entsprechenden visuellen Skizzen oder Diagrammplatzhaltern.
  • Endgültige Antwort: Lösung des Problems.

Feldverteilungskarte des Datensatzes