HyperAIHyperAI

Command Palette

Search for a command to run...

vor 5 Tagen

Video-Thinker: Auslösen von „Denken mit Videos“ mittels Verstärkungslernen

Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng

Video-Thinker: Auslösen von „Denken mit Videos“ mittels Verstärkungslernen

Abstract

Neuere Fortschritte in Methoden des Bildschlussfolgerns, insbesondere im Ansatz „Thinking with Images“, haben erhebliche Erfolge bei multimodalen großen Sprachmodellen (MLLMs) gezeigt; dieses dynamische Schlussfolgerungsparadigma wurde bisher jedoch noch nicht auf Video-Schlussfolgerungsaufgaben übertragen. In diesem Artikel stellen wir Video-Thinker vor, ein Ansatz, der MLLMs ermöglicht, mit Videos zu „denken“, indem sie ihre inhärenten Fähigkeiten zur „Grounding“ und „Captioning“ autonom nutzen, um während des Inferenzprozesses Schlussfolgerungshinweise zu generieren. Um diese Fähigkeit zu aktivieren, haben wir das Datensatz-Set Video-Thinker-10K erstellt, das autonome Werkzeugnutzung innerhalb von Chain-of-Thought-Schlussfolgerungssequenzen aufweist. Unser Trainingsansatz beginnt mit einer überwachten Feinabstimmung (Supervised Fine-Tuning, SFT), um das Schlussfolgerungsmuster zu erlernen, gefolgt von einer Gruppenbezogenen relativen Policy-Optimierung (Group Relative Policy Optimization, GRPO), um diese Schlussfolgerungsfähigkeit zu verstärken. Mittels dieses Ansatzes ermöglicht Video-Thinker es MLLMs, Grounding- und Captioning-Aufgaben für Video-Schlussfolgerung autonom zu bewältigen, wodurch der Aufbau und die Aufruf externer Werkzeuge entfallen. Umfangreiche Experimente zeigen, dass Video-Thinker erhebliche Leistungssteigerungen sowohl bei in-domain-Aufgaben als auch bei anspruchsvollen out-of-domain-Benchmark-Aufgaben für Video-Schlussfolgerung erzielt, darunter Video-Holmes, CG-Bench-Reasoning und VRBench. Unser Modell Video-Thinker-7B übertrifft signifikant bestehende Baselines wie Video-R1 und erreicht die derzeit beste Leistung unter Modellen mit 7B Parametern.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Video-Thinker: Auslösen von „Denken mit Videos“ mittels Verstärkungslernen | Forschungsarbeiten | HyperAI