7 天前

AnyMAL:一种高效且可扩展的任意模态增强语言模型

Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar
AnyMAL:一种高效且可扩展的任意模态增强语言模型
摘要

我们提出了一种统一的多模态增强语言模型——Any-Modality Augmented Language Model(AnyMAL),该模型能够对多种输入模态信号(如文本、图像、视频、音频及惯性测量单元IMU运动传感器数据)进行推理,并生成文本响应。AnyMAL继承了当前先进大语言模型(如LLaMA-2,70B参数版本)强大的文本推理能力,并通过一个预训练的对齐模块,将各类模态特有的信号映射到统一的文本空间中。为进一步提升多模态大模型的能力,我们采用人工收集的多模态指令数据集对该模型进行微调,该数据集覆盖了多样化的主题与任务,远超简单的问答任务范畴。我们开展了全面的实证分析,结合人工评估与自动评估,结果表明AnyMAL在多项多模态任务上均达到了当前最先进的性能水平。

AnyMAL:一种高效且可扩展的任意模态增强语言模型 | 最新论文 | HyperAI超神经