摘要
即兴视频检索(Ad-hoc Video Search, AVS)是多媒体检索领域中一项重要且具有挑战性的问题。与以往基于概念的方法不同,本文提出了一种端到端的深度学习方法,用于查询表示学习。所提方法无需进行概念建模、匹配与选择,显著简化了流程。该方法的核心是提出的W2VV++模型,它是此前用于视觉到文本匹配的Word2VisualVec(W2VV)模型的增强版本。W2VV++通过对W2VV进行改进,采用更优的句子编码策略和优化的三元组排序损失函数,实现了性能的显著提升。仅通过这些简洁的改进,W2VV++在多个评估任务中表现出色。在参与TRECVID 2018 AVS任务以及对TRECVID 2016和2017数据集的回溯实验中,我们最佳的单模型在整体推断平均精度(infAP)上达到0.157,超越了当前最先进的方法。通过采用后期平均融合(late average fusion)的模型集成策略,性能进一步提升,infAP最高可达0.163。基于W2VV++,我们为即兴视频检索任务建立了新的基准(baseline)。