HyperAIHyperAI

Command Palette

Search for a command to run...

UMT:用于联合视频瞬间检索与精彩片段检测的统一多模态Transformer

Ye Liu Siyuan Li Yang Wu Chang Wen Chen Ying Shan Xiaohu Qie

摘要

在当前视频内容爆炸式增长的时代,根据自然语言查询准确识别相关片段与视频亮点,已成为一项自然且极具价值的普遍需求。然而,将片段检索(moment retrieval)与亮点检测(highlight detection)联合进行研究仍属于新兴课题,尽管其组成部分及相关任务已得到长期探索。本文提出首个统一框架——统一多模态Transformer(Unified Multi-modal Transformers, UMT),该框架不仅能实现两者的联合优化,还可轻松退化为解决单一任务的方案。据我们所知,这是首个将多模态(视觉-音频)学习机制同时应用于联合优化或独立片段检索任务的方案,并通过一种新颖的查询生成器与查询解码器,将片段检索建模为关键点检测问题。在QVHighlights、Charades-STA、YouTube Highlights和TVSum等多个数据集上的大量对比实验与消融研究充分验证了所提方法在多种场景下的有效性、优越性与灵活性。项目源代码与预训练模型已开源,地址为:https://github.com/TencentARC/UMT


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供