8 个月前

摘要

文本到视频检索系统最近通过利用大规模图像-文本对训练的预训练模型取得了显著进展。然而，大多数最新方法主要关注视频模态，而忽略了音频信号在这一任务中的作用。尽管如此，ECLIPSE 最近的一项进展通过开发一种视听视频表示方法，改进了长距离文本到视频检索。然而，文本到视频检索任务的目标是捕捉与文本查询相关的互补音频和视频信息，而不仅仅是实现更好的音频和视频对齐。为了解决这一问题，我们引入了 TEFAL（TExt-conditioned Feature ALignment），这是一种基于文本条件的特征对齐方法，可以生成受文本查询条件约束的音频和视频表示。我们的方法不仅使用了一个视听注意力模块，这可能会抑制与文本查询相关的音频信息，而是采用了两个独立的跨模态注意力模块，使文本能够分别关注音频和视频表示。我们在四个包含音频的基准数据集上验证了所提出方法的有效性：MSR-VTT、LSMDC、VATEX 和 Charades，并在这四个数据集上始终表现出优于现有最先进方法的性能。这一结果归因于额外的基于文本查询条件的音频表示及其为基于文本查询条件的视频表示提供的互补信息。

源 PDF