HyperAI超神经

扩展模态是否是通往全模态的正确路径?

Tinghui Zhu, Kai Zhang, Muhao Chen, Yu Su
发布日期: 6/9/2025
扩展模态是否是通往全模态的正确路径?
摘要

全模态语言模型(OLMs)旨在整合并推理多种输入模态,如文本、图像、视频和音频,同时保持强大的语言能力。尽管最近取得了进展,现有的模型,尤其是开源模型,仍远未达到真正的全模态水平,难以在超出其训练的具体模态组合之外进行泛化,或者在处理多模态输入时实现强劲的性能。我们研究了扩展模态这一多模态模型的主要训练技术的效果,其中预训练的语言模型在目标领域和语言数据上进行微调。具体而言,我们探讨了三个关键问题:(1) 模态扩展是否损害核心语言能力?(2) 模型融合能否有效整合独立微调的特定模态模型以实现全模态?(3) 与顺序扩展相比,全模态扩展是否能更好地促进知识共享和泛化?通过广泛的实验,我们分析了这些权衡,并提供了关于使用当前方法实现真正全模态可行性的见解。