거대한 신경망: 희소 게이트 믹스처-오브-익스퍼트 레이어

신경망의 정보 흡수 능력은 그 파라미터 수에 의해 제한됩니다. 이론적으로는 예제별로 신경망의 일부만 활성화되는 조건부 계산이 모델 용량을 크게 증가시키면서 계산량은 비례하지 않게 증가시키는 방법으로 제안되었습니다. 그러나 실제로는 중요한 알고리즘적 및 성능 문제들이 존재합니다. 본 연구에서는 이러한 문제들을 해결하여 조건부 계산의 잠재력을 최종적으로 실현하였습니다. 현대 GPU 클러스터에서 계산 효율성이 약간 손실되는 것만으로도 모델 용량을 1000배 이상 개선하였습니다.우리는 최대数千个前馈子网络组成的稀疏门控专家混合层(Sparsely-Gated Mixture-of-Experts layer, MoE)를 소개합니다. 학습 가능한 게이팅 네트워크는 각 예제에 대해 사용할 전문가들의 희소 조합을 결정합니다. 우리는 언어 모델링과 기계 번역 작업에 MoE를 적용하였는데, 이들 작업에서는 훈련 코퍼스에서 얻을 수 있는 방대한 지식을 흡수하기 위해 모델 용량이 매우 중요합니다. 우리는 최대 137억 개의 파라미터를 가진 MoE를 LSTM 레이어 사이에 컨볼루션 방식으로 적용하는 모델 아키텍처를 제시합니다. 대규모 언어 모델링 및 기계 번역 벤치마크에서 이러한 모델들은 더 낮은 계산 비용으로 현존하는 가장 우수한 결과보다 유의미하게 좋은 성능을 보였습니다.注:在翻译“数千个前馈子网络”时,由于这是对“thousands of feed-forward sub-networks”的直接翻译,但不符合韩语表达习惯,因此调整为“최대 수천 개의 피드포워드 서브네트워크”以提高流畅度。以下是修正后的版本:우리는 최대 수천 개의 피드포워드 서브네트워크로 구성된 희소 게이팅 전문가 혼합층(Sparsely-Gated Mixture-of-Experts layer, MoE)을 소개합니다. 학습 가능한 게이팅 네트워크는 각 예제에 대해 사용할 전문가들의 희소 조합을 결정합니다. 우리는 언어 모델링과 기계 번역 작업에 MoE를 적용하였는데, 이들 작업에서는 훈련 코퍼스에서 얻을 수 있는 방대한 지식을 흡수하기 위해 모델 용량이 매우 중요합니다. 우리는 최대 137억 개의 파라미터를 가진 MoE를 LSTM 레이어 사이에 컨볼루션 방식으로 적용하는 모델 아키텍처를 제시합니다. 대규모 언어 모델링 및 기계 번역 벤치마크에서 이러한 모델들은 더 낮은 계산 비용으로 현존하는 가장 우수한 결과보다 유의미하게 좋은 성능을 보였습니다.