Command Palette
Search for a command to run...
Qing Wang Xue Han Jiahui Wang Lehao Xing Qian Hu Lianlian Zhang Chao Deng Junlan Feng

摘要
尽管大型语言模型(LLM)在代码生成方面表现出色,多语言代码生成仍面临巨大挑战。为应对这一问题,我们旨在在仅使用有限计算资源的前提下,提升基础LLM在多编程语言(MultiPL)任务上的性能,同时保留当前最主流的模型架构。我们将多编程语言任务视为多种自然语言处理的特殊情形,并提出一种基于混合专家(MoE)架构的多编程语言扩展方法,称为MultiPL-MoE。具体而言,MultiPL-MoE通过结合两个配对的MoE模块,实现对专家选择在token级和段级的双重优化。其中,token级MoE采用标准的“再利用型”MoE结构,配备共享专家,并引入一种新颖的门控权重归一化方法,以促进与段级MoE的最终融合。段级MoE则包含两项创新设计,以更有效地捕捉编程语言的语法结构和上下文模式:其一,采用滑动窗口机制将输入的token序列划分为多个段;其二,引入专家选择路由策略,使每个专家能够自主选择top-k个最具代表性的段。实验结果验证了MultiPL-MoE的有效性。