8 天前
VALOR:视觉-音频-语言全感知预训练模型与数据集
Jing Liu, Sihan Chen, Xingjian He, Longteng Guo, Xinxin Zhu, Weining Wang, Jinhui Tang

摘要
本文提出了一种面向多模态理解与生成的视觉-音频-语言全模态感知预训练模型(Vision-Audio-Language Omni-peRception pretraining model, 简称 VALOR)。与广泛研究的视觉-语言预训练模型不同,VALOR 采用端到端的方式联合建模视觉、音频与语言三者之间的复杂关系。该模型包含三个独立的编码器,用于提取单模态表征,以及一个解码器,用于实现多模态条件下的文本生成。为实现模型预训练,我们设计了两项自监督预训练任务:多模态分组对齐(Multimodal Grouping Alignment, MGA)与多模态分组描述生成(Multimodal Grouping Captioning, MGC)。MGA 将视觉、语言和音频模态映射至统一的共享语义空间,从而同时建立视觉-语言、音频-语言以及视听-语言之间的对齐关系;MGC 则学习在视觉、音频或二者共同条件下的文本标记生成能力。为推动视觉-音频-语言联合预训练研究的发展,我们构建了一个大规模高质量的三模态数据集——VALOR-1M,该数据集包含 100 万条可听视频,并配有由人工标注的视听联合描述。大量实验结果表明,VALOR 能够有效学习强大的多模态关联能力,并在多种下游任务(如跨模态检索、图像/视频描述生成、问答系统)中展现出良好的泛化性能,适用于不同输入模态组合(如视觉-语言、音频-语言、视听-语言)。VALOR 在多个公开的跨模态基准测试中均取得了新的最先进(SOTA)性能。项目代码与数据集已公开,详见项目主页:https://casia-iva-group.github.io/projects/VALOR。