MiCo: Mehrbild-Kontrast für die verstärkende visuelle Schlussfolgerung

Diese Arbeit untersucht die Möglichkeit, Ketten-Denken (Chain-of-Thought, CoT) zu ermöglichen, um visuelle Hinweise über mehrere Bilder zu verknüpfen. Eine einfache Lösung besteht darin, regelbasiertes Reinforcement Learning für Vision-Sprach-Modelle (Vision-Language Models, VLMs) anzupassen. Allerdings basieren solche Methoden in der Regel auf manuell erstellten Frage-Antwort-Paaren, was besonders herausfordernd sein kann, wenn es um feingranuläre visuelle Details und komplexe Logik zwischen Bildern geht. Inspiriert durch das selbstüberwachte Lernen von visuellen Repräsentationen beobachten wir, dass Bilder inhärente Restriktionen enthalten, die als Supervision dienen können. Auf dieser Erkenntnis basierend konstruieren wir Bildtripel, die zwei erweiterte Ansichten des gleichen Bildes und ein drittes, ähnlich aber unterschiedliches Bild umfassen. Während des Trainings wird das Modell angewiesen, einen Denkprozess zu generieren, um diese Bilder zu vergleichen (d.h., identisch oder verschieden zu bestimmen). Anschließend optimieren wir das Modell mit regelbasiertem Reinforcement Learning. Aufgrund der hohen visuellen Ähnlichkeit und der Anwesenheit von Erweiterungen muss das Modell subtile visuelle Veränderungen wahrnehmen und logisches Denken durchführen, um erfolgreich zu sein. Experimente zeigen, dass das gelernte Denkvermögen, obwohl es ausschließlich anhand von visuellen Vergleichsaufgaben trainiert wurde, effektiv auf eine Vielzahl von Fragen übertragbar ist. Ohne auf menschlich annotierte Frage-Antwort-Paare zurückzugreifen erreicht unsere Methode erhebliche Verbesserungen bei Benchmarks für Mehrbild-Denkprozesse und zeigt starke Leistungen bei allgemeinen Visonaufgaben.