Zebra-CoT: Ein Datensatz für abwechselnde visuelle Sprachbasierte Schlussfolgerung

Menschen verwenden häufig visuelle Hilfsmittel, wie beispielsweise Diagramme oder Skizzen, um komplexe Probleme zu lösen. Die Ausbildung multimodeller Modelle, um dies ebenfalls zu tun, sogenannte Visual Chain of Thought (Visual CoT), ist aufgrund von zwei Faktoren schwierig: (1) einer schlechten Leistung von vorgefertigten Visual-CoT-Modellen, die die Verstärkungslernen (reinforcement learning) behindert, und (2) der Unzulänglichkeit von hochwertigen Trainingsdaten für Visual CoT. Wir führen Zebra-CoT ein, eine vielfältige und großflächige Datensammlung mit 182.384 Beispielen, die logisch kohärente, abwechselnde Text-Bild-Reasoning-Verläufe enthält. Wir konzentrieren uns auf vier Aufgabentypen, bei denen Skizzieren oder visuelles Reasoning besonders natürlicher ist, darunter wissenschaftliche Fragen wie Geometrie, Physik und Algorithmen; 2D-visual Reasoning-Aufgaben wie visuelle Suche und Puzzle-Enthüllung; 3D-Reasoning-Aufgaben, einschließlich 3D-Mehrschritt-Infereenz, verankertem und roboterbasiertem Planen; sowie visuelle Logikprobleme und strategische Spiele wie Schach. Die Feinabstimmung des Anole-7B-Modells auf die Zebra-CoT-Trainingsdaten führt zu einer Steigerung der Genauigkeit um +12 % in unserem Testdatensatz und erzielt bis zu +13 % Leistungssteigerung bei Standard-VLM-Benchmark-Tests (Visual Language Models). Die Feinabstimmung des Bagel-7B-Modells erzeugt ein Modell, das hochwertige abwechselnde visuelle Reasoning-Ketten generiert, was die Effektivität von Zebra-CoT für die Entwicklung multimodaler Reasoning-Fähigkeiten unterstreicht. Wir stellen unsere Datensammlung und Modelle öffentlich zur Verfügung, um die Entwicklung und Bewertung von Visual CoT zu unterstützen.