Command Palette
Search for a command to run...
TempSamp-R1: Effektive zeitliche Abtastung durch Verstärkungsfine-Tuning für Video-LLMs
Yunheng Li Jing Cheng Shaoyong Jia Hangyi Kuang Shaohui Jiao Qibin Hou Ming-Ming Cheng

Abstract
Diese Arbeit stellt TempSamp-R1 vor, einen neuen Rahmen für die Verstärkungsfine-Tuning-Optimierung, der darauf abzielt, die Effektivität der Anpassung multimodaler großer Sprachmodelle (MLLMs) an Aufgaben der zeitlichen Lokalisierung in Videos zu verbessern. Wir zeigen, dass bestehende Methoden des Verstärkungslernens, wie die Gruppen-Relative Policy Optimization (GRPO), auf On-Policy-Sampling zur Aktualisierung der Politik angewiesen sind. In Aufgaben mit großen zeitlichen Suchräumen erweist sich diese Strategie jedoch als ineffizient und leistungsbegrenzt, da sie häufig nicht in der Lage ist, zeitlich präzise Lösungen zu identifizieren. Um diesen Nachteil zu überwinden, nutzt TempSamp-R1 Ground-Truth-Anmerkungen als Off-Policy-Supervision, um präzise zeitliche Anleitungen bereitzustellen und somit die Sparsamkeit sowie die Ungenauigkeit der On-Policy-Lösungen effektiv auszugleichen. Um die Stabilität des Trainings weiter zu erhöhen und die Varianz bei belohnungsbasierter Aktualisierung zu reduzieren, bietet TempSamp-R1 eine nichtlineare Soft-Avantage-Berechnungsmethode, die die Belohnungsfeedbacks dynamisch durch eine asymmetrische Transformation umformt. Durch die Anwendung eines hybriden Chain-of-Thought (CoT)-Trainingsparadigmas optimiert TempSamp-R1 ein einziges, einheitliches Modell, das sowohl CoT- als auch nicht-CoT-Inferenzmodi unterstützt und somit die effiziente Bearbeitung von Anfragen mit unterschiedlichem Komplexitätsgrad ermöglicht. Experimentelle Ergebnisse zeigen, dass TempSamp-R1 basierte Baselines mit GRPO übertrifft und neue SOTA-Leistungen auf Standard-Datensätzen erzielt: Charades-STA (R1@0.7: 52,9 %, +2,7 %), ActivityNet Captions (R1@0.5: 56,0 %, +5,3 %) und QVHighlights (mAP: 30,0 %, +3,0 %). Darüber hinaus zeigt TempSamp-R1 robuste Few-Shot-Verallgemeinerungsfähigkeiten unter begrenzten Datenbedingungen. Code: https://github.com/HVision-NKU/TempSamp-R1
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.