Command Palette
Search for a command to run...
TempSamp-R1: Effektive zeitliche Abtastung durch Verstärkungsfine-Tuning für Video-LLMs
TempSamp-R1: Effektive zeitliche Abtastung durch Verstärkungsfine-Tuning für Video-LLMs
Yunheng Li Jing Cheng Shaoyong Jia Hangyi Kuang Shaohui Jiao Qibin Hou Ming-Ming Cheng
Zusammenfassung
Diese Arbeit stellt TempSamp-R1 vor, einen neuen Rahmen für die Verstärkungsfine-Tuning-Optimierung, der darauf abzielt, die Effektivität der Anpassung multimodaler großer Sprachmodelle (MLLMs) an Aufgaben der zeitlichen Lokalisierung in Videos zu verbessern. Wir zeigen, dass bestehende Methoden des Verstärkungslernens, wie die Gruppen-Relative Policy Optimization (GRPO), auf On-Policy-Sampling zur Aktualisierung der Politik angewiesen sind. In Aufgaben mit großen zeitlichen Suchräumen erweist sich diese Strategie jedoch als ineffizient und leistungsbegrenzt, da sie häufig nicht in der Lage ist, zeitlich präzise Lösungen zu identifizieren. Um diesen Nachteil zu überwinden, nutzt TempSamp-R1 Ground-Truth-Anmerkungen als Off-Policy-Supervision, um präzise zeitliche Anleitungen bereitzustellen und somit die Sparsamkeit sowie die Ungenauigkeit der On-Policy-Lösungen effektiv auszugleichen. Um die Stabilität des Trainings weiter zu erhöhen und die Varianz bei belohnungsbasierter Aktualisierung zu reduzieren, bietet TempSamp-R1 eine nichtlineare Soft-Avantage-Berechnungsmethode, die die Belohnungsfeedbacks dynamisch durch eine asymmetrische Transformation umformt. Durch die Anwendung eines hybriden Chain-of-Thought (CoT)-Trainingsparadigmas optimiert TempSamp-R1 ein einziges, einheitliches Modell, das sowohl CoT- als auch nicht-CoT-Inferenzmodi unterstützt und somit die effiziente Bearbeitung von Anfragen mit unterschiedlichem Komplexitätsgrad ermöglicht. Experimentelle Ergebnisse zeigen, dass TempSamp-R1 basierte Baselines mit GRPO übertrifft und neue SOTA-Leistungen auf Standard-Datensätzen erzielt: Charades-STA ([email protected]: 52,9 %, +2,7 %), ActivityNet Captions ([email protected]: 56,0 %, +5,3 %) und QVHighlights (mAP: 30,0 %, +3,0 %). Darüber hinaus zeigt TempSamp-R1 robuste Few-Shot-Verallgemeinerungsfähigkeiten unter begrenzten Datenbedingungen. Code: https://github.com/HVision-NKU/TempSamp-R1