8 个月前

摘要

视频亮点检测和时刻检索（HD/MR）在视频分析中至关重要。近期的联合预测 Transformer 模型常常忽视跨任务动态以及视频与文本的对齐和精炼。此外，大多数模型通常使用有限的单向注意力机制，导致表示集成较弱，无法有效捕捉视频和文本模态之间的相互依赖关系。尽管大型语言模型和视觉-语言模型（LLM/LVLMs）在各个领域中逐渐崭露头角，但它们在这一领域的应用仍相对较少探索。本文提出了一种新的HD/MR框架——VideoLights，旨在通过以下方法解决这些限制：(i) 使用卷积投影和特征精炼模块，并引入对齐损失以实现更好的视频-文本特征对齐；(ii) 引入双向跨模态融合网络以生成强耦合的查询感知片段表示；(iii) 采用单向联合任务反馈机制，通过相关性增强两个任务的表现；(iv) 引入硬正例/负例损失以实现自适应错误惩罚和改进学习效果；(v) 利用如BLIP-2等LVLMs进行增强的多模态特征集成，并使用由LVLMs生成的合成数据进行智能预训练。在QVHighlights、TVSum和Charades-STA基准上的全面实验表明，该框架达到了最先进的性能。代码和模型可在https://github.com/dpaul06/VideoLights 获取。

源 PDF