15일 전

MixLoRA: LoRA 기반의 전문가 집합(Mixture of Experts)을 통한 대규모 언어 모델 미세조정 개선

Dengchun Li, Yingzi Ma, Naizheng Wang, Zhengmao Ye, Zhiyuan Cheng, Yinghao Tang, Yan Zhang, Lei Duan, Jie Zuo, Cal Yang, Mingjie Tang
MixLoRA: LoRA 기반의 전문가 집합(Mixture of Experts)을 통한 대규모 언어 모델 미세조정 개선
초록

대규모 언어 모델(LLM)의 피니터닝은 사전 훈련된 모델을 특정 응용에 맞게 적응시키는 일반적인 접근 방식이다. LoRA와 같은 기법은 훈련 중 GPU 메모리 제약을 효과적으로 해결하지만, 특히 다중 작업 시나리오에서는 성능이 부족한 경우가 많다. 반면, Mixtral 8x7B와 같은 믹스처 오브 익스퍼트(MoE) 모델은 파라미터 수를 줄이면서도 다중 작업 학습 시나리오에서 뛰어난 성능을 보여준다. 그러나 이러한 MoE 모델의 자원 요구량은 여전히 높아, 24GB 미만의 메모리를 가진 일반 소비자용 GPU에서는 활용이 어렵다. 이러한 문제를 해결하기 위해, 우리는 LoRA 기반의 자원 효율적인 희소 MoE 모델을 구축하는 방법인 MixLoRA를 제안한다. MixLoRA는 고정된 사전 훈련된 밀집 모델의 피드포워드 네트워크 블록 내부에 다수의 LoRA 기반 익스퍼트를 삽입하고, 일반적으로 사용되는 top-k 라우터를 활용한다. 다른 LoRA 기반 MoE 방법들과 달리, MixLoRA는 독립적인 어텐션 레이어 LoRA 어댑터를 활용하여 모델 성능을 향상시킨다. 또한, 라우터의 불균형 문제를 해결하기 위해 보조적 로드 밸런스 손실 함수를 도입한다. 평가 결과, MixLoRA는 다중 작업 학습 시나리오에서 최신 PEFT 기법보다 약 9% 높은 정확도를 달성하였다. 더불어, MoE 모델의 훈련 및 추론 과정에서 발생하는 계산 및 메모리 병목 문제를 완화하기 위한 새로운 고처리량 프레임워크를 제안한다. 이 프레임워크는 훈련 및 추론 모두에서 GPU 메모리 소비를 40% 감소시키고, 토큰 계산 지연을 30% 줄이는 데 성공하였다.

MixLoRA: LoRA 기반의 전문가 집합(Mixture of Experts)을 통한 대규모 언어 모델 미세조정 개선 | 최신 연구 논문 | HyperAI초신경