9일 전

하이드라: 대규모 다중 모델 딥러닝을 위한 시스템

Kabir Nagrecha, Arun Kumar
하이드라: 대규모 다중 모델 딥러닝을 위한 시스템
초록

모델의 깊이와 크기를 확장하는 것은 최근 다양한 딥러닝(DL) 응용 분야에서 정확도를 향상시키는 일반적인 접근법이 되었으며, 자연어처리(NLP) 분야에서 수십억 또는 심지어 수조 개의 파라미터를 가진 모델들이 광범위하게 성공한 사례를 통해 이를 확인할 수 있다. 딥러닝 연구 및 주요 기술 기업에서의 성공에도 불구하고, 이러한 대규모 모델이 도메인 과학자들과 기업들 사이에서 보다 넓은 실용적 채택이 여전히 GPU 메모리 한계, 높은 학습 비용, 그리고 공공 클라우드 환경에서도 여전히 낮은 GPU 가용성으로 인해 제약받고 있다. 모델 선택 과정은 이러한 자원적 도전을 더욱 악화시킨다. 사용자들은 특정 작업과 데이터셋에 맞게 다양한 하이퍼파라미터나 신경망 아키텍처를 가진 수십 개의 모델을 비교해야 하는 경우가 많기 때문이다. 본 논문에서는 이러한 문제를 해결하기 위해, 자원 효율적인 방식으로 조용한 GPU(컴모디티 GPU)에서도 다중 대규모 모델 기반 딥러닝 작업을 즉시 확장할 수 있도록 설계된 시스템인 Hydra를 제안한다. Hydra는 대규모 딥러닝 모델을 위한 다중 모델 워크로드 실행을 종합적으로 최적화하는 최초의 접근법이다. 우리는 기존의 '모델 병렬 실행' 방식을 메모리 계층 구조를 통해 확장 가능한 파라미터 오프로딩과 결합하여 적응시키고, 이를 작업 병렬 작업 스케줄링 기법과 하이브리드화함으로써 이를 달성한다. Hydra는 모델 파라미터의 확장성과 실행 병렬성 간의 결합을 해제함으로써, 단일 컴모디티 GPU에서도 60억 파라미터 규모의 모델 학습이 가능하게 한다. 또한 다중 GPU 환경에서 작업 병렬성의 성능 향상 잠재력을 완전히 활용하여 거의 선형에 가까운 강한 스케일링을 달성하며, 이러한 모델에 대한 엄격한 모델 선택이 더욱 실현 가능하게 만든다. 언어 모델링을 위한 GPT-2의 피니튜닝을 통해 엔드투엔드 성능을 평가한 결과, Hydra는 DeepSpeed 및 GPipe와 같은 최첨단 산업용 프레임워크의 최적 설정보다도 다중 대규모 모델 학습에서 50%에서 100%까지 더 높은 학습 처리량을 제공함을 확인하였다.

하이드라: 대규모 다중 모델 딥러닝을 위한 시스템 | 최신 연구 논문 | HyperAI초신경