
摘要
在处理互联网规模数据集时,根据自然语言查询检索相关视频内容的任务起着至关重要的作用。现有的大多数视频字幕到视频检索方法未能充分挖掘视频中蕴含的跨模态线索,且在聚合帧级视觉特征时,往往缺乏或仅有限地利用时间信息。本文提出一种多模态Transformer架构,用于联合编码视频中的不同模态信息,使各模态能够相互关注。同时,该Transformer结构也被用于编码和建模时间信息。在自然语言处理方面,我们探索了与多模态Transformer联合优化语言嵌入的最佳实践。该新颖框架在三个数据集上均实现了视频检索任务的最先进性能。更多详细信息请访问:http://thoth.inrialpes.fr/research/MMT。