2달 전

GPipe: 파이프라인 병렬성을 사용한 거대 신경망의 효율적인 학습

Yanping Huang; Youlong Cheng; Ankur Bapna; Orhan Firat; Mia Xu Chen; Dehao Chen; HyoukJoong Lee; Jiquan Ngiam; Quoc V. Le; Yonghui Wu; Zhifeng Chen
GPipe: 파이프라인 병렬성을 사용한 거대 신경망의 효율적인 학습
초록

딥 뉴럴 네트워크의 용량 확장은 여러 다른 기계 학습 작업에서 모델 품질을 개선하는 효과적인 방법으로 알려져 있습니다. 많은 경우에, 단일 가속기의 메모리 한도를 초과하여 모델 용량을 증가시키는 것은 특수한 알고리즘이나 인프라스트럭처를 개발해야 하는 필요성을 가져왔습니다. 이러한 해결책들은 종종 아키텍처에 특화되어 있으며 다른 작업으로 이전되지 않습니다. 효율적이고 작업에 독립적인 모델 병렬 처리의 필요성을 해결하기 위해, 우리는 GPipe라는 파이프라인 병렬 처리 라이브러리를 소개합니다. GPipe는 층의 시퀀스로 표현할 수 있는 모든 네트워크를 확장할 수 있게 해줍니다. 서로 다른 가속기에 층의 다른 하위 시퀀스를 파이프라인화함으로써, GPipe는 다양한 네트워크를 효율적으로 거대한 크기로 확장할 수 있는 유연성을 제공합니다. 또한, GPipe는 새로운 배치 분할 파이프라인 알고리즘을 활용하여, 모델이 여러 가속기로 분할될 때 거의 선형적인 속도 향상을 제공합니다. 우리는 두 가지 서로 다른 작업과 고유한 네트워크 아키텍처에서 대규모 신경망을 훈련시켜 GPipe의 장점을 입증합니다: (i) 이미지 분류: ImageNet-2012에서 5억 5700만 매개변수를 가진 AmoebaNet 모델을 훈련시켜 최상위 1등급 정확도 84.4%를 달성했습니다, (ii) 다국어 신경 기계 번역: 100여 개 언어에 걸친 말뭉치에서 6억 매개변수와 128층을 가진 단일 Transformer 모델을 훈련시켜 모든 양방향 모델보다 더 나은 품질을 달성했습니다.