
摘要
基于内容的视频检索(Content-based Video Retrieval, CBVR)广泛应用于媒体分享平台,支持视频推荐、过滤等应用场景。为应对规模达数十亿视频的数据库管理需求,视频级方法因其高效性而备受青睐,这类方法通常采用固定长度的嵌入表示(fixed-size embeddings)。本文提出一种新型视频区域注意力图网络(Video Region Attention Graph Networks, VRAG),显著提升了现有视频级方法的性能水平。我们通过区域级特征对视频进行更细粒度的建模,并利用区域间的关联关系来编码视频的时空动态特性。VRAG基于自注意力机制捕捉区域间的语义内容关联,并结合图卷积的排列不变性聚合策略,有效建模区域间的复杂关系。此外,我们证明通过将视频分割为镜头(shots),并采用镜头级嵌入进行检索,可显著缩小视频级方法与帧级方法之间的性能差距。我们在多个视频检索任务上对VRAG进行了评估,取得了当前视频级检索的最新最先进(state-of-the-art)结果。进一步地,我们的镜头级VRAG在检索精度上优于现有各类视频级方法,且在推理速度更快的前提下,其性能更接近帧级方法。最后,本文所提出的代码将对外公开,以促进相关研究的发展。