Command Palette
Search for a command to run...
MiCo: Mehrbild-Kontrast für die verstärkende visuelle Schlussfolgerung
MiCo: Mehrbild-Kontrast für die verstärkende visuelle Schlussfolgerung
Xi Chen Mingkang Zhu Shaoteng Liu Xiaoyang Wu Xiaogang Xu Yu Liu Xiang Bai Hengshuang Zhao
Zusammenfassung
Diese Arbeit untersucht die Möglichkeit, Ketten-Denken (Chain-of-Thought, CoT) zu ermöglichen, um visuelle Hinweise über mehrere Bilder zu verknüpfen. Eine einfache Lösung besteht darin, regelbasiertes Reinforcement Learning für Vision-Sprach-Modelle (Vision-Language Models, VLMs) anzupassen. Allerdings basieren solche Methoden in der Regel auf manuell erstellten Frage-Antwort-Paaren, was besonders herausfordernd sein kann, wenn es um feingranuläre visuelle Details und komplexe Logik zwischen Bildern geht. Inspiriert durch das selbstüberwachte Lernen von visuellen Repräsentationen beobachten wir, dass Bilder inhärente Restriktionen enthalten, die als Supervision dienen können. Auf dieser Erkenntnis basierend konstruieren wir Bildtripel, die zwei erweiterte Ansichten des gleichen Bildes und ein drittes, ähnlich aber unterschiedliches Bild umfassen. Während des Trainings wird das Modell angewiesen, einen Denkprozess zu generieren, um diese Bilder zu vergleichen (d.h., identisch oder verschieden zu bestimmen). Anschließend optimieren wir das Modell mit regelbasiertem Reinforcement Learning. Aufgrund der hohen visuellen Ähnlichkeit und der Anwesenheit von Erweiterungen muss das Modell subtile visuelle Veränderungen wahrnehmen und logisches Denken durchführen, um erfolgreich zu sein. Experimente zeigen, dass das gelernte Denkvermögen, obwohl es ausschließlich anhand von visuellen Vergleichsaufgaben trainiert wurde, effektiv auf eine Vielzahl von Fragen übertragbar ist. Ohne auf menschlich annotierte Frage-Antwort-Paare zurückzugreifen erreicht unsere Methode erhebliche Verbesserungen bei Benchmarks für Mehrbild-Denkprozesse und zeigt starke Leistungen bei allgemeinen Visonaufgaben.