Command Palette

Search for a command to run...

2일 전

MultiPL-MoE: 대규모 언어 모델의 다중 프로그래밍-다국어 확장에 대한 하이브리드 전문가 집합 기반 접근

Qing Wang Xue Han Jiahui Wang Lehao Xing Qian Hu Lianlian Zhang Chao Deng Junlan Feng

MultiPL-MoE: 대규모 언어 모델의 다중 프로그래밍-다국어 확장에 대한 하이브리드 전문가 집합 기반 접근

초록

대규모 언어 모델(LLM)의 뛰어난 코드 생성 능력에도 불구하고, 다국어 코드 생성은 여전히 극도로 도전적인 과제로 남아 있다. 이를 해결하기 위해, 우리는 제한된 계산 자원을 활용하면서도 가장 널리 사용되는 기반 LLM의 다중 프로그래밍 언어(MultiPL) 성능을 향상시키는 것을 목표로 한다. 본 연구에서는 MultiPL을 다수의 자연어 처리의 특수한 사례로 간주하고, 하이브리드 믹스처 오브 전문가(MoE)를 활용한 MultiPL 확장 모델인 MultiPL-MoE를 제안한다. 구체적으로, MultiPL-MoE는 토큰 수준과 세그먼트 수준에서 전문가 선택을 최적화하기 위해 두 쌍의 MoE를 결합한다. 토큰 수준 MoE는 공유 전문가를 갖는 표준 upcycling MoE 구조를 기반으로 하며, 세그먼트 수준 MoE와의 최종 융합을 보다 효과적으로 지원하기 위해 새로운 게이트 가중치 정규화 기법을 도입한다. 반면, 세그먼트 수준 MoE는 프로그래밍 언어의 문법 구조와 맥락 패턴을 보다 정확히 포착하기 위해 두 가지 혁신적인 설계를 포함한다. 첫째, 입력 토큰 시퀀스를 슬라이딩 윈도우를 통해 여러 세그먼트로 분할하는 방식을 채택한다. 둘째, 전문가가 상위-k개의 세그먼트를 선택할 수 있도록 허용하는 전문가 선택 라우팅 전략을 도입한다. 실험 결과는 MultiPL-MoE의 효과성을 입증하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
MultiPL-MoE: 대규모 언어 모델의 다중 프로그래밍-다국어 확장에 대한 하이브리드 전문가 집합 기반 접근 | 연구 논문 | HyperAI초신경