2 个月前
LanguageBind:通过语言语义对齐扩展视频-语言预训练至N模态
Bin Zhu; Bin Lin; Munan Ning; Yang Yan; Jiaxi Cui; HongFa Wang; Yatian Pang; Wenhao Jiang; Junwu Zhang; Zongwei Li; Wancai Zhang; Zhifeng Li; Wei Liu; Li Yuan

摘要
视频-语言(VL)预训练在多个下游任务中取得了显著的改进。然而,当前的VL预训练框架难以扩展到视觉和语言之外的多种模态(N种模态,N≥3)。因此,我们提出了LanguageBind,利用语言作为不同模态之间的桥梁,因为语言模态已经被广泛研究并且包含丰富的语义。具体而言,我们冻结了通过VL预训练获得的语言编码器,然后使用对比学习训练其他模态的编码器。结果,所有模态都被映射到一个共享的特征空间,实现了多模态语义对齐。虽然LanguageBind确保可以将VL模态扩展到N种模态,但我们还需要一个高质量的数据集,其中包含以语言为中心的对齐数据对。为此,我们提出了VIDAL-10M数据集,该数据集包括视频、红外、深度和音频及其相应的语言描述,命名为VIDAL-10M。在我们的VIDAL-10M中,所有视频均来自短视频平台,具有完整的语义而非从长视频中截取的片段,并且所有的视频、深度、红外和音频模态都与其文本描述进行了对齐。LanguageBind在涵盖视频、音频、深度和红外的15个基准测试中表现出色。此外,多项实验提供了证据,证明LanguageBind在实现间接对齐和不同模态之间的互补性方面具有有效性。代码地址:https://github.com/PKU-YuanGroup/LanguageBind