17 天前

CREMA:通过多模态模块化融合实现可泛化且高效的视频-语言推理

Shoubin Yu, Jaehong Yoon, Mohit Bansal
CREMA:通过多模态模块化融合实现可泛化且高效的视频-语言推理
摘要

尽管近年来多模态推理方法取得了显著进展,但其在灵活性与效率方面仍存在明显局限:这些模型通常仅能处理有限的固定模态输入,且需要更新大量参数。本文针对上述关键挑战,提出了一种通用性强、高效且模块化的模态融合框架——CREMA(Cross-Modal Reasoning with Efficient Modality Augmentation),可无缝引入任意新模态以增强视频推理能力。首先,我们通过利用传感器或现有的预训练模型,从给定视频中无须人工标注地提取多种富有信息量的辅助模态,包括光流(optical flow)、三维点云(3D point cloud)、音频(audio)、热成像图(thermal heatmap)以及触觉图(touch map)。随后,我们设计了一种带有多个参数高效模块的查询变换器(query transformer),每个可访问的模态均对应一个专属模块。该结构将不同模态的特征映射至大语言模型(LLM)的词元嵌入空间,从而实现对异构数据类型的统一融合与响应生成。此外,本文提出一种新颖的渐进式多模态融合机制,其依托轻量级融合模块与模态顺序训练策略,有效压缩来自多种辅助模态的信息,在保持LLM计算效率的同时显著提升模型性能。我们在7个由多样化模态辅助的视频-语言推理任务上验证了所提方法,涵盖传统的视频问答(VideoQA)以及视频-音频/3D/触觉/热成像问答等新型任务。实验结果表明,CREMA在性能上优于或至少等同于多个强大的多模态大模型(如OneLLM、BLIP-2和SeViLA),同时将可训练参数量减少超过90%。我们还对CREMA进行了详尽的分析,包括各模态对推理任务的影响、融合模块的设计合理性,以及典型示例的可视化展示。