Command Palette
Search for a command to run...
Qing Wang Xue Han Jiahui Wang Lehao Xing Qian Hu Lianlian Zhang Chao Deng Junlan Feng

초록
대규모 언어 모델(LLM)의 뛰어난 코드 생성 능력에도 불구하고, 다국어 코드 생성은 여전히 극도로 도전적인 과제로 남아 있다. 이를 해결하기 위해, 우리는 제한된 계산 자원을 활용하면서도 가장 널리 사용되는 기반 LLM의 다중 프로그래밍 언어(MultiPL) 성능을 향상시키는 것을 목표로 한다. 본 연구에서는 MultiPL을 다수의 자연어 처리의 특수한 사례로 간주하고, 하이브리드 믹스처 오브 전문가(MoE)를 활용한 MultiPL 확장 모델인 MultiPL-MoE를 제안한다. 구체적으로, MultiPL-MoE는 토큰 수준과 세그먼트 수준에서 전문가 선택을 최적화하기 위해 두 쌍의 MoE를 결합한다. 토큰 수준 MoE는 공유 전문가를 갖는 표준 upcycling MoE 구조를 기반으로 하며, 세그먼트 수준 MoE와의 최종 융합을 보다 효과적으로 지원하기 위해 새로운 게이트 가중치 정규화 기법을 도입한다. 반면, 세그먼트 수준 MoE는 프로그래밍 언어의 문법 구조와 맥락 패턴을 보다 정확히 포착하기 위해 두 가지 혁신적인 설계를 포함한다. 첫째, 입력 토큰 시퀀스를 슬라이딩 윈도우를 통해 여러 세그먼트로 분할하는 방식을 채택한다. 둘째, 전문가가 상위-k개의 세그먼트를 선택할 수 있도록 허용하는 전문가 선택 라우팅 전략을 도입한다. 실험 결과는 MultiPL-MoE의 효과성을 입증하였다.