MoMa 架构

MoMa 架构(全称 Mixture of Modality-Aware Experts)由 Meta 于 2024 年在论文「MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts」中提出,这是一种新型的模态感知混合专家 (MoE) 架构,专为预训练混合模态、早期融合语言模型而设计。

MoMa 通过将专家模块划分为模态特定组来处理任意序列的图像和文本。这些组专门处理指定的标记,同时在每个组内采用学习到的路由来保持语义上知情的自适应性。研究结果表明,通过这种模态特定的参数分配,预训练效率显著提高。在 1 万亿标记训练预算下,具有 4 名文本专家和 4 名图像专家的 MoMa 1.4B 模型实现了的 FLOP 节省:与计算等效密集基线相比,总体节省了 3.7 倍,其中文本节省了 2.6 倍,图像处理节省了 5.2 倍,以预训练损失为衡量标准。这优于具有 8 名混合模态专家的标准专家选择 MoE,后者实现了 3 倍的总体 FLOP 节省(文本节省 3 倍,图像节省 2.8 倍)。将 MoMa 与深度混合 (MoD) 相结合,可进一步将预训练 FLOP 节省到整体的 4.2 倍(文本:3.4 倍,图像:5.3 倍),尽管这种组合会降低因果推理的性能,因为对路由器准确性的敏感性增加。这些结果表明 MoMa 有潜力显著提高混合模式、早期融合语言模型预训练的效率,为更节省资源、更强大的多模式 AI 系统铺平道路。