HyperAIHyperAI

Command Palette

Search for a command to run...

多模态Transformer用于视频检索

Valentin Gabeur Chen Sun Karteek Alahari Cordelia Schmid

摘要

在处理互联网规模数据集时,根据自然语言查询检索相关视频内容的任务起着至关重要的作用。现有的大多数视频字幕到视频检索方法未能充分挖掘视频中蕴含的跨模态线索,且在聚合帧级视觉特征时,往往缺乏或仅有限地利用时间信息。本文提出一种多模态Transformer架构,用于联合编码视频中的不同模态信息,使各模态能够相互关注。同时,该Transformer结构也被用于编码和建模时间信息。在自然语言处理方面,我们探索了与多模态Transformer联合优化语言嵌入的最佳实践。该新颖框架在三个数据集上均实现了视频检索任务的最先进性能。更多详细信息请访问:http://thoth.inrialpes.fr/research/MMT


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供