Command Palette

Search for a command to run...

2 天前

MultiPL-MoE:通过混合专家模型扩展大型语言模型的多编程语言能力

Qing Wang Xue Han Jiahui Wang Lehao Xing Qian Hu Lianlian Zhang Chao Deng Junlan Feng

MultiPL-MoE:通过混合专家模型扩展大型语言模型的多编程语言能力

摘要

尽管大型语言模型(LLM)在代码生成方面表现出色,多语言代码生成仍面临巨大挑战。为应对这一问题,我们旨在在仅使用有限计算资源的前提下,提升基础LLM在多编程语言(MultiPL)任务上的性能,同时保留当前最主流的模型架构。我们将多编程语言任务视为多种自然语言处理的特殊情形,并提出一种基于混合专家(MoE)架构的多编程语言扩展方法,称为MultiPL-MoE。具体而言,MultiPL-MoE通过结合两个配对的MoE模块,实现对专家选择在token级和段级的双重优化。其中,token级MoE采用标准的“再利用型”MoE结构,配备共享专家,并引入一种新颖的门控权重归一化方法,以促进与段级MoE的最终融合。段级MoE则包含两项创新设计,以更有效地捕捉编程语言的语法结构和上下文模式:其一,采用滑动窗口机制将输入的token序列划分为多个段;其二,引入专家选择路由策略,使每个专家能够自主选择top-k个最具代表性的段。实验结果验证了MultiPL-MoE的有效性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供