vor einem Monat

TempSamp-R1: Effektive zeitliche Abtastung durch Verstärkungsfine-Tuning für Video-LLMs

Details der Forschungsarbeit anzeigen Code anzeigen

Yunheng Li Jing Cheng Shaoyong Jia Hangyi Kuang Shaohui Jiao Qibin Hou Ming-Ming Cheng

TempSamp-R1: Effektive zeitliche Abtastung durch Verstärkungsfine-Tuning für Video-LLMs

Abstract

Diese Arbeit stellt TempSamp-R1 vor, einen neuen Rahmen für die Verstärkungsfine-Tuning-Optimierung, der darauf abzielt, die Effektivität der Anpassung multimodaler großer Sprachmodelle (MLLMs) an Aufgaben der zeitlichen Lokalisierung in Videos zu verbessern. Wir zeigen, dass bestehende Methoden des Verstärkungslernens, wie die Gruppen-Relative Policy Optimization (GRPO), auf On-Policy-Sampling zur Aktualisierung der Politik angewiesen sind. In Aufgaben mit großen zeitlichen Suchräumen erweist sich diese Strategie jedoch als ineffizient und leistungsbegrenzt, da sie häufig nicht in der Lage ist, zeitlich präzise Lösungen zu identifizieren. Um diesen Nachteil zu überwinden, nutzt TempSamp-R1 Ground-Truth-Anmerkungen als Off-Policy-Supervision, um präzise zeitliche Anleitungen bereitzustellen und somit die Sparsamkeit sowie die Ungenauigkeit der On-Policy-Lösungen effektiv auszugleichen. Um die Stabilität des Trainings weiter zu erhöhen und die Varianz bei belohnungsbasierter Aktualisierung zu reduzieren, bietet TempSamp-R1 eine nichtlineare Soft-Avantage-Berechnungsmethode, die die Belohnungsfeedbacks dynamisch durch eine asymmetrische Transformation umformt. Durch die Anwendung eines hybriden Chain-of-Thought (CoT)-Trainingsparadigmas optimiert TempSamp-R1 ein einziges, einheitliches Modell, das sowohl CoT- als auch nicht-CoT-Inferenzmodi unterstützt und somit die effiziente Bearbeitung von Anfragen mit unterschiedlichem Komplexitätsgrad ermöglicht. Experimentelle Ergebnisse zeigen, dass TempSamp-R1 basierte Baselines mit GRPO übertrifft und neue SOTA-Leistungen auf Standard-Datensätzen erzielt: Charades-STA (R1@0.7: 52,9 %, +2,7 %), ActivityNet Captions (R1@0.5: 56,0 %, +5,3 %) und QVHighlights (mAP: 30,0 %, +3,0 %). Darüber hinaus zeigt TempSamp-R1 robuste Few-Shot-Verallgemeinerungsfähigkeiten unter begrenzten Datenbedingungen. Code: https://github.com/HVision-NKU/TempSamp-R1

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

TempSamp-R1: Effektive zeitliche Abtastung durch Verstärkungsfine-Tuning für Video-LLMs

Yunheng Li Jing Cheng Shaoyong Jia Hangyi Kuang Shaohui Jiao Qibin Hou Ming-Ming Cheng

Abstract

KI mit KI entwickeln

Hyper Newsletters