HyperAIHyperAI

Command Palette

Search for a command to run...

VideoLights:用于联合视频亮点检测和时刻检索的特征精炼与跨任务对齐 Transformer

Dhiman Paul Md Rizwan Parvez Nabeel Mohammed Shafin Rahman

摘要

视频亮点检测和时刻检索(HD/MR)在视频分析中至关重要。近期的联合预测 Transformer 模型常常忽视跨任务动态以及视频与文本的对齐和精炼。此外,大多数模型通常使用有限的单向注意力机制,导致表示集成较弱,无法有效捕捉视频和文本模态之间的相互依赖关系。尽管大型语言模型和视觉-语言模型(LLM/LVLMs)在各个领域中逐渐崭露头角,但它们在这一领域的应用仍相对较少探索。本文提出了一种新的HD/MR框架——VideoLights,旨在通过以下方法解决这些限制:(i) 使用卷积投影和特征精炼模块,并引入对齐损失以实现更好的视频-文本特征对齐;(ii) 引入双向跨模态融合网络以生成强耦合的查询感知片段表示;(iii) 采用单向联合任务反馈机制,通过相关性增强两个任务的表现;(iv) 引入硬正例/负例损失以实现自适应错误惩罚和改进学习效果;(v) 利用如BLIP-2等LVLMs进行增强的多模态特征集成,并使用由LVLMs生成的合成数据进行智能预训练。在QVHighlights、TVSum和Charades-STA基准上的全面实验表明,该框架达到了最先进的性能。代码和模型可在https://github.com/dpaul06/VideoLights 获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供