Command Palette
Search for a command to run...
Yunheng Li Jing Cheng Shaoyong Jia Hangyi Kuang Shaohui Jiao Qibin Hou Ming-Ming Cheng

摘要
本文提出了一种名为 TempSamp-R1 的新型强化学习微调框架,旨在提升多模态大语言模型(MLLMs)在视频时序定位任务中的适应能力。我们发现,现有的强化学习方法(如组相对策略优化,GRPO)依赖于同策略采样进行策略更新。然而,在具有庞大时序搜索空间的任务中,该策略既效率低下,性能也受限,往往难以找到时序上准确的解。为解决这一局限性,TempSamp-R1 利用真实标注(ground-truth annotations)作为非同策略监督信号,提供精确的时序引导,有效弥补了同策略解在稀疏性和时序对齐上的不足。为进一步稳定训练过程并降低基于奖励的更新中的方差,TempSamp-R1 提出了一种非线性软优势计算方法,通过非对称变换动态重塑奖励反馈。通过采用混合思维链(Chain-of-Thought, CoT)训练范式,TempSamp-R1 能够优化单一统一模型,支持 CoT 与非 CoT 两种推理模式,从而高效应对不同推理复杂度的查询任务。实验结果表明,TempSamp-R1 显著优于基于 GRPO 的基线方法,在多个基准数据集上取得了新的最先进性能:Charades-STA(R1@0.7: 52.9%,提升 2.7%)、ActivityNet Captions(R1@0.5: 56.0%,提升 5.3%)以及 QVHighlights(mAP: 30.0%,提升 3.0%)。此外,TempSamp-R1 在数据有限的少样本场景下也展现出稳健的泛化能力。代码已开源:https://github.com/HVision-NKU/TempSamp-R1