HyperAIHyperAI

Command Palette

Search for a command to run...

MiCo: Mehrbild-Kontrast für die verstärkende visuelle Schlussfolgerung

Xi Chen Mingkang Zhu Shaoteng Liu Xiaoyang Wu Xiaogang Xu Yu Liu Xiang Bai Hengshuang Zhao

Zusammenfassung

Diese Arbeit untersucht die Möglichkeit, Ketten-Denken (Chain-of-Thought, CoT) zu ermöglichen, um visuelle Hinweise über mehrere Bilder zu verknüpfen. Eine einfache Lösung besteht darin, regelbasiertes Reinforcement Learning für Vision-Sprach-Modelle (Vision-Language Models, VLMs) anzupassen. Allerdings basieren solche Methoden in der Regel auf manuell erstellten Frage-Antwort-Paaren, was besonders herausfordernd sein kann, wenn es um feingranuläre visuelle Details und komplexe Logik zwischen Bildern geht. Inspiriert durch das selbstüberwachte Lernen von visuellen Repräsentationen beobachten wir, dass Bilder inhärente Restriktionen enthalten, die als Supervision dienen können. Auf dieser Erkenntnis basierend konstruieren wir Bildtripel, die zwei erweiterte Ansichten des gleichen Bildes und ein drittes, ähnlich aber unterschiedliches Bild umfassen. Während des Trainings wird das Modell angewiesen, einen Denkprozess zu generieren, um diese Bilder zu vergleichen (d.h., identisch oder verschieden zu bestimmen). Anschließend optimieren wir das Modell mit regelbasiertem Reinforcement Learning. Aufgrund der hohen visuellen Ähnlichkeit und der Anwesenheit von Erweiterungen muss das Modell subtile visuelle Veränderungen wahrnehmen und logisches Denken durchführen, um erfolgreich zu sein. Experimente zeigen, dass das gelernte Denkvermögen, obwohl es ausschließlich anhand von visuellen Vergleichsaufgaben trainiert wurde, effektiv auf eine Vielzahl von Fragen übertragbar ist. Ohne auf menschlich annotierte Frage-Antwort-Paare zurückzugreifen erreicht unsere Methode erhebliche Verbesserungen bei Benchmarks für Mehrbild-Denkprozesse und zeigt starke Leistungen bei allgemeinen Visonaufgaben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MiCo: Mehrbild-Kontrast für die verstärkende visuelle Schlussfolgerung | Paper | HyperAI