Command Palette
Search for a command to run...
Video-Thinker: Auslösen von „Denken mit Videos“ mittels Verstärkungslernen
Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng

Abstract
Neuere Fortschritte in Methoden des Bildschlussfolgerns, insbesondere im Ansatz „Thinking with Images“, haben erhebliche Erfolge bei multimodalen großen Sprachmodellen (MLLMs) gezeigt; dieses dynamische Schlussfolgerungsparadigma wurde bisher jedoch noch nicht auf Video-Schlussfolgerungsaufgaben übertragen. In diesem Artikel stellen wir Video-Thinker vor, ein Ansatz, der MLLMs ermöglicht, mit Videos zu „denken“, indem sie ihre inhärenten Fähigkeiten zur „Grounding“ und „Captioning“ autonom nutzen, um während des Inferenzprozesses Schlussfolgerungshinweise zu generieren. Um diese Fähigkeit zu aktivieren, haben wir das Datensatz-Set Video-Thinker-10K erstellt, das autonome Werkzeugnutzung innerhalb von Chain-of-Thought-Schlussfolgerungssequenzen aufweist. Unser Trainingsansatz beginnt mit einer überwachten Feinabstimmung (Supervised Fine-Tuning, SFT), um das Schlussfolgerungsmuster zu erlernen, gefolgt von einer Gruppenbezogenen relativen Policy-Optimierung (Group Relative Policy Optimization, GRPO), um diese Schlussfolgerungsfähigkeit zu verstärken. Mittels dieses Ansatzes ermöglicht Video-Thinker es MLLMs, Grounding- und Captioning-Aufgaben für Video-Schlussfolgerung autonom zu bewältigen, wodurch der Aufbau und die Aufruf externer Werkzeuge entfallen. Umfangreiche Experimente zeigen, dass Video-Thinker erhebliche Leistungssteigerungen sowohl bei in-domain-Aufgaben als auch bei anspruchsvollen out-of-domain-Benchmark-Aufgaben für Video-Schlussfolgerung erzielt, darunter Video-Holmes, CG-Bench-Reasoning und VRBench. Unser Modell Video-Thinker-7B übertrifft signifikant bestehende Baselines wie Video-R1 und erreicht die derzeit beste Leistung unter Modellen mit 7B Parametern.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.