vor 3 Monaten

Runqi Qiao Qiuna Tan Minghan Yang Guanting Dong Peiqing Yang Shiqiang Lang Enhui Wan Xiaowan Wang Yida Xu Lan Yang

Zusammenfassung

Die tiefgreifende Integration von Bildinteraktionen mit langfristigen Schlussfolgerungsfähigkeiten in großen multimodalen Modellen (LMMs) bleibt ein lang bestehendes Problem in diesem Forschungsfeld. Kürzliche Fortschritte im Bereich der visionzentrierten Schlussfolgerung eröffnen eine vielversprechende „Denken mit Bildern“-Paradigmen für LMMs und markieren einen Wandel von der bildunterstützten zu einer bildinteraktiven Denkweise. Obwohl dieses Meilensteinmodell es den Modellen ermöglicht, sich auf feinabgestimmte Bildregionen zu konzentrieren, bleibt der Fortschritt weiterhin durch begrenzte visuelle Werkzeugräume und auf spezifische Aufgaben zugeschnittene Arbeitsabläufe eingeschränkt. Um diese Lücke zu schließen, präsentieren wir V-Thinker, einen allgemein einsetzbaren multimodalen Schlussfolgerungsassistenten, der interaktives, visionzentriertes Denken durch end-to-end-Verstärkungslernen ermöglicht. V-Thinker besteht aus zwei zentralen Komponenten: (1) einem Data Evolution Flywheel, der interaktive Schlussfolgerungsdatensätze automatisch synthetisiert, weiterentwickelt und validiert – in Bezug auf drei Dimensionen: Vielfalt, Qualität und Schwierigkeitsgrad; und (2) einem Visual Progressive Training Curriculum, das zunächst die Wahrnehmung durch punktgenaue Aufsicht ausrichtet und anschließend interaktives Schlussfolgern über einen zweistufigen Verstärkungslernansatz integriert. Zudem führen wir VTBench ein, eine von Experten validierte Benchmark, die speziell auf visionzentrierte interaktive Schlussfolgerungsaufgaben abgestimmt ist. Ausführliche Experimente zeigen, dass V-Thinker sowohl in allgemeinen als auch in interaktiven Schlussfolgerungsszenarien konsistent starke LMM-basierte Baselines übertrifft und wertvolle Erkenntnisse für die Weiterentwicklung anwendungsorientierter, bildinteraktiver Schlussfolgerung liefert.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Runqi Qiao Qiuna Tan Minghan Yang Guanting Dong Peiqing Yang Shiqiang Lang Enhui Wan Xiaowan Wang Yida Xu Lan Yang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Runqi Qiao Qiuna Tan Minghan Yang Guanting Dong Peiqing Yang Shiqiang Lang Enhui Wan Xiaowan Wang Yida Xu Lan Yang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

V-Thinker: Interaktives Denken mit Bildern

Runqi Qiao Qiuna Tan Minghan Yang Guanting Dong Peiqing Yang Shiqiang Lang Enhui Wan Xiaowan Wang Yida Xu Lan Yang3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

V-Thinker: Interaktives Denken mit Bildern

Runqi Qiao Qiuna Tan Minghan Yang Guanting Dong Peiqing Yang Shiqiang Lang Enhui Wan Xiaowan Wang Yida Xu Lan Yang3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

V-Thinker: Interaktives Denken mit Bildern

Runqi Qiao Qiuna Tan Minghan Yang Guanting Dong Peiqing Yang Shiqiang Lang Enhui Wan Xiaowan Wang Yida Xu Lan Yang3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Runqi Qiao Qiuna Tan Minghan Yang Guanting Dong Peiqing Yang Shiqiang Lang Enhui Wan Xiaowan Wang Yida Xu Lan Yang

Runqi Qiao Qiuna Tan Minghan Yang Guanting Dong Peiqing Yang Shiqiang Lang Enhui Wan Xiaowan Wang Yida Xu Lan Yang

Runqi Qiao Qiuna Tan Minghan Yang Guanting Dong Peiqing Yang Shiqiang Lang Enhui Wan Xiaowan Wang Yida Xu Lan Yang