Command Palette
Search for a command to run...
Yunheng Li Jing Cheng Shaoyong Jia Hangyi Kuang Shaohui Jiao Qibin Hou Ming-Ming Cheng

要約
本稿では、マルチモーダル大規模言語モデル(MLLM)を動画の時間的位置特定タスクに適応させる際の効果を向上させるための新しい強化学習微調整フレームワーク「TempSamp-R1」を提案する。我々は、従来の強化学習手法(例:Group Relative Policy Optimization, GRPO)がポリシー更新にオンポリシー採択(on-policy sampling)に依存していることを明らかにした。しかしながら、時間的探索空間が大きなタスクでは、この戦略は効率が低く、性能の限界にもなる。その理由は、しばしば時間的に正確な解を特定できないためである。この課題を解決するために、TempSamp-R1は、オフポリシーの教師信号として真値アノテーションを活用し、時間的に正確なガイダンスを提供することで、オンポリシー解におけるスパース性および整合性の欠如を効果的に補完する。さらに、報酬に基づく更新における分散を低減し、学習の安定性を向上させるため、非線形なソフトアドバンテージ計算手法を導入。この手法は非対称変換により報酬フィードバックを動的に再構成する。また、ハイブリッドなChain-of-Thought(CoT)学習パラダイムを採用することで、単一の統合モデルを用いてCoTモードと非CoTモードの両方の推論を最適化し、推論の複雑さが異なるクエリに対しても効率的に対応可能となる。実験結果から、TempSamp-R1はGRPOベースのベースラインを上回り、以下のベンチマークデータセットにおいて新たなSOTA(最良性能)を達成した:Charades-STA(R1@0.7: 52.9%, +2.7%)、ActivityNet Captions(R1@0.5: 56.0%, +5.3%)、QVHighlights(mAP: 30.0%, +3.0%)。さらに、限られたデータ環境下でも堅牢な少サンプル一般化能力を示した。コードは以下より入手可能:https://github.com/HVision-NKU/TempSamp-R1