HyperAI超神经

摘要

尽管大型语言模型（LLM）在代码生成方面表现出色，多语言代码生成仍面临巨大挑战。为应对这一问题，我们旨在在仅使用有限计算资源的前提下，提升基础LLM在多编程语言（MultiPL）任务上的性能，同时保留当前最主流的模型架构。我们将多编程语言任务视为多种自然语言处理的特殊情形，并提出一种基于混合专家（MoE）架构的多编程语言扩展方法，称为MultiPL-MoE。具体而言，MultiPL-MoE通过结合两个配对的MoE模块，实现对专家选择在token级和段级的双重优化。其中，token级MoE采用标准的“再利用型”MoE结构，配备共享专家，并引入一种新颖的门控权重归一化方法，以促进与段级MoE的最终融合。段级MoE则包含两项创新设计，以更有效地捕捉编程语言的语法结构和上下文模式：其一，采用滑动窗口机制将输入的token序列划分为多个段；其二，引入专家选择路由策略，使每个专家能够自主选择top-k个最具代表性的段。实验结果验证了MultiPL-MoE的有效性。

MultiPL-MoE：通过混合专家模型扩展大型语言模型的多编程语言能力

Qing Wang Xue Han Jiahui Wang Lehao Xing Qian Hu Lianlian Zhang Chao Deng Junlan Feng

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

MultiPL-MoE：通过混合专家模型扩展大型语言模型的多编程语言能力

Qing Wang Xue Han Jiahui Wang Lehao Xing Qian Hu Lianlian Zhang Chao Deng Junlan Feng

摘要

用 AI 构建 AI

Hyper Newsletters