전문가 혼합(MoE)
전문가 혼합(MoE)은 여러 전문가 네트워크(학습자)를 사용하여 문제 공간을 동질적인 영역으로 분할하는 머신 러닝 기술입니다.
전문가 혼합(MoE) 모델의 가장 큰 장점은 밀집 모델보다 훨씬 적은 계산 리소스로 효과적으로 사전 학습할 수 있다는 것입니다. 즉, 동일한 컴퓨팅 예산으로 모델이나 데이터 세트의 크기를 크게 확장할 수 있습니다. 특히 사전 학습 단계에서 전문가 혼합 모델은 밀집 모델보다 더 빠르게 동일한 품질 수준에 도달할 수 있는 경우가 많습니다.
Transformer 모델의 맥락에서 MoE는 두 가지 주요 부분으로 구성됩니다.
- 희소 MoE 레이어: 기존의 고밀도 피드포워드 네트워크(FFN) 계층을 대체합니다. MoE 계층에는 여러 명의 "전문가"(예: 8개)가 포함되어 있으며, 각각은 독립적인 신경망입니다. 이러한 전문가는 일반적으로 FFN이지만, 더 복잡한 네트워크이거나 MoE 자체일 수도 있으며, MoE 계층을 형성합니다.
- 게이트 네트워크 또는 라우터: 어떤 토큰이 어떤 전문가에게 할당되는지 결정하는 데 사용됩니다. 예를 들어, 아래 그림에서 토큰 "More"는 두 번째 전문가에게 할당되고, 토큰 "Parameters"는 첫 번째 네트워크에 할당됩니다. 하나의 토큰을 여러 전문가에게 할당할 수 있다는 점에 유의하세요. MoE 기술을 사용할 때 고려해야 할 핵심 문제 중 하나는 적절한 전문가에게 토큰을 효율적으로 할당하는 방법입니다. 이 라우터는 나머지 모델과 함께 사전 학습된 학습 가능한 매개변수 세트로 구성됩니다.

이미지 출처: 스위치 변압기 논문 MoE 레이어 예시
MoE(혼합 전문가 모델)의 설계 아이디어는 다음과 같습니다. Transformer 모델에서 각 FFN(피드포워드 네트워크) 계층은 게이팅 네트워크와 여러 "전문가"로 구성된 MoE 계층으로 대체됩니다.
전문가 혼합의 과제(MoE)
전문가 혼합(MoE) 모델은 밀도 모델에 비해 사전 학습 효율성이 높고 추론 속도가 빠르다는 등 여러 가지 중요한 장점을 제공하지만 다음과 같은 몇 가지 과제도 있습니다.
- 훈련 과제: MoE는 더 효율적인 계산적 사전 학습을 달성할 수 있지만, 미세 조정 단계에서 일반화 능력이 부족하다는 문제에 직면하는 경우가 많고 장기적으로 과적합이 발생하기 쉽습니다.
- 추론 도전: MoE 모델은 많은 수의 매개변수를 가질 수 있지만 추론에는 일부만 사용되므로 동일한 수의 매개변수를 사용하는 밀집 모델보다 추론 속도가 빠릅니다. 하지만 이 모델은 모든 매개변수를 메모리에 로드해야 하므로 메모리 요구 사항이 매우 높습니다. Mixtral 8x7B와 같은 MoE를 예로 들면, 47B 매개변수가 있는 고밀도 모델을 수용할 수 있는 충분한 VRAM이 필요합니다. 8 x 7B = 56B 대신 47B인 이유는 MoE 모델에서 FFN 계층만 독립적인 전문가로 간주되고 모델의 다른 매개변수는 공유되기 때문입니다. 또한 토큰당 두 명의 전문가만 사용한다고 가정하면 추론 속도(FLOP)는 14B 모델이 아닌 12B 모델을 사용하는 것과 비슷합니다. 이는 2x7B 행렬 곱셈을 수행하지만 특정 계층은 공유되기 때문입니다.