vor 3 Monaten

Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng

Zusammenfassung

Neuere Fortschritte in Methoden des Bildschlussfolgerns, insbesondere im Ansatz „Thinking with Images“, haben erhebliche Erfolge bei multimodalen großen Sprachmodellen (MLLMs) gezeigt; dieses dynamische Schlussfolgerungsparadigma wurde bisher jedoch noch nicht auf Video-Schlussfolgerungsaufgaben übertragen. In diesem Artikel stellen wir Video-Thinker vor, ein Ansatz, der MLLMs ermöglicht, mit Videos zu „denken“, indem sie ihre inhärenten Fähigkeiten zur „Grounding“ und „Captioning“ autonom nutzen, um während des Inferenzprozesses Schlussfolgerungshinweise zu generieren. Um diese Fähigkeit zu aktivieren, haben wir das Datensatz-Set Video-Thinker-10K erstellt, das autonome Werkzeugnutzung innerhalb von Chain-of-Thought-Schlussfolgerungssequenzen aufweist. Unser Trainingsansatz beginnt mit einer überwachten Feinabstimmung (Supervised Fine-Tuning, SFT), um das Schlussfolgerungsmuster zu erlernen, gefolgt von einer Gruppenbezogenen relativen Policy-Optimierung (Group Relative Policy Optimization, GRPO), um diese Schlussfolgerungsfähigkeit zu verstärken. Mittels dieses Ansatzes ermöglicht Video-Thinker es MLLMs, Grounding- und Captioning-Aufgaben für Video-Schlussfolgerung autonom zu bewältigen, wodurch der Aufbau und die Aufruf externer Werkzeuge entfallen. Umfangreiche Experimente zeigen, dass Video-Thinker erhebliche Leistungssteigerungen sowohl bei in-domain-Aufgaben als auch bei anspruchsvollen out-of-domain-Benchmark-Aufgaben für Video-Schlussfolgerung erzielt, darunter Video-Holmes, CG-Bench-Reasoning und VRBench. Unser Modell Video-Thinker-7B übertrifft signifikant bestehende Baselines wie Video-R1 und erreicht die derzeit beste Leistung unter Modellen mit 7B Parametern.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Video-Thinker: Auslösen von „Denken mit Videos“ mittels Verstärkungslernen

Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Video-Thinker: Auslösen von „Denken mit Videos“ mittels Verstärkungslernen

Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Video-Thinker: Auslösen von „Denken mit Videos“ mittels Verstärkungslernen

Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters