V-Thinker: Interaktives Denken mit Bildern

Abstract
Die tiefgreifende Integration von Bildinteraktionen mit langfristigen Schlussfolgerungsfähigkeiten in großen multimodalen Modellen (LMMs) bleibt ein lang bestehendes Problem in diesem Forschungsfeld. Kürzliche Fortschritte im Bereich der visionzentrierten Schlussfolgerung eröffnen eine vielversprechende „Denken mit Bildern“-Paradigmen für LMMs und markieren einen Wandel von der bildunterstützten zu einer bildinteraktiven Denkweise. Obwohl dieses Meilensteinmodell es den Modellen ermöglicht, sich auf feinabgestimmte Bildregionen zu konzentrieren, bleibt der Fortschritt weiterhin durch begrenzte visuelle Werkzeugräume und auf spezifische Aufgaben zugeschnittene Arbeitsabläufe eingeschränkt. Um diese Lücke zu schließen, präsentieren wir V-Thinker, einen allgemein einsetzbaren multimodalen Schlussfolgerungsassistenten, der interaktives, visionzentriertes Denken durch end-to-end-Verstärkungslernen ermöglicht. V-Thinker besteht aus zwei zentralen Komponenten: (1) einem Data Evolution Flywheel, der interaktive Schlussfolgerungsdatensätze automatisch synthetisiert, weiterentwickelt und validiert – in Bezug auf drei Dimensionen: Vielfalt, Qualität und Schwierigkeitsgrad; und (2) einem Visual Progressive Training Curriculum, das zunächst die Wahrnehmung durch punktgenaue Aufsicht ausrichtet und anschließend interaktives Schlussfolgern über einen zweistufigen Verstärkungslernansatz integriert. Zudem führen wir VTBench ein, eine von Experten validierte Benchmark, die speziell auf visionzentrierte interaktive Schlussfolgerungsaufgaben abgestimmt ist. Ausführliche Experimente zeigen, dass V-Thinker sowohl in allgemeinen als auch in interaktiven Schlussfolgerungsszenarien konsistent starke LMM-basierte Baselines übertrifft und wertvolle Erkenntnisse für die Weiterentwicklung anwendungsorientierter, bildinteraktiver Schlussfolgerung liefert.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.