Aya Vision:推进多语言多模态的前沿
Saurabh Dash, Yiyang Nan, John Dang, Arash Ahmadian, Shivalika Singh, Madeline Smith, Bharat Venkitesh, Vlad Shmyhlo, Viraat Aryabumi, Walter Beller-Morales, Jeremy Pekmez, Jason Ozuzu, Pierre Richemond, Acyr Locatelli, Nick Frosst, Phil Blunsom, Aidan Gomez, Ivan Zhang, Marzieh Fadaee, Manoj Govindassamy, Sudip Roy, Matthias Gallé, Beyza Ermis, Ahmet Üstün, Sara Hooker
发布日期: 5/14/2025

摘要
构建多模态语言模型具有根本性的挑战:它需要对齐视觉和语言模态,精心整理高质量的指令数据,并在引入视觉信息后避免现有纯文本能力的退化。这些困难在多语言环境中进一步加剧,因为不同语言的多模态数据需求加剧了现有的数据稀缺问题,机器翻译常常扭曲意义,而灾难性遗忘现象也更加明显。为了解决上述挑战,我们提出了一系列涵盖数据和建模的新技术。首先,我们开发了一种合成注释框架,用于整理高质量、多样化的多语言多模态指令数据,使Aya Vision模型能够对多种语言的多模态输入生成自然、人类偏好的响应。此外,我们提出了一种跨模态模型融合技术,以减轻灾难性遗忘现象,有效保留纯文本能力的同时提升多模态生成性能。Aya-Vision-8B在与强大的多模态模型如Qwen-2.5-VL-7B、Pixtral-12B以及更大规模的Llama-3.2-90B-Vision相比时表现出色。我们进一步扩展了这一方法,推出了Aya-Vision-32B,其性能超过了规模超过两倍的Molmo-72B和Llama-3.2-90B-Vision等模型。我们的工作在多语言多模态前沿取得了进展,并提供了关于如何有效减少计算需求同时实现极高性能的技术见解。