HyperAIHyperAI

Command Palette

Search for a command to run...

vor 17 Tagen

V-Thinker: Interaktives Denken mit Bildern

V-Thinker: Interaktives Denken mit Bildern

Abstract

Die tiefgreifende Integration von Bildinteraktionen mit langfristigen Schlussfolgerungsfähigkeiten in großen multimodalen Modellen (LMMs) bleibt ein lang bestehendes Problem in diesem Forschungsfeld. Kürzliche Fortschritte im Bereich der visionzentrierten Schlussfolgerung eröffnen eine vielversprechende „Denken mit Bildern“-Paradigmen für LMMs und markieren einen Wandel von der bildunterstützten zu einer bildinteraktiven Denkweise. Obwohl dieses Meilensteinmodell es den Modellen ermöglicht, sich auf feinabgestimmte Bildregionen zu konzentrieren, bleibt der Fortschritt weiterhin durch begrenzte visuelle Werkzeugräume und auf spezifische Aufgaben zugeschnittene Arbeitsabläufe eingeschränkt. Um diese Lücke zu schließen, präsentieren wir V-Thinker, einen allgemein einsetzbaren multimodalen Schlussfolgerungsassistenten, der interaktives, visionzentriertes Denken durch end-to-end-Verstärkungslernen ermöglicht. V-Thinker besteht aus zwei zentralen Komponenten: (1) einem Data Evolution Flywheel, der interaktive Schlussfolgerungsdatensätze automatisch synthetisiert, weiterentwickelt und validiert – in Bezug auf drei Dimensionen: Vielfalt, Qualität und Schwierigkeitsgrad; und (2) einem Visual Progressive Training Curriculum, das zunächst die Wahrnehmung durch punktgenaue Aufsicht ausrichtet und anschließend interaktives Schlussfolgern über einen zweistufigen Verstärkungslernansatz integriert. Zudem führen wir VTBench ein, eine von Experten validierte Benchmark, die speziell auf visionzentrierte interaktive Schlussfolgerungsaufgaben abgestimmt ist. Ausführliche Experimente zeigen, dass V-Thinker sowohl in allgemeinen als auch in interaktiven Schlussfolgerungsszenarien konsistent starke LMM-basierte Baselines übertrifft und wertvolle Erkenntnisse für die Weiterentwicklung anwendungsorientierter, bildinteraktiver Schlussfolgerung liefert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
V-Thinker: Interaktives Denken mit Bildern | Forschungsarbeiten | HyperAI