
深層学習(DL)アプリケーションにおける精度向上のため、モデルの深さとサイズを拡大するアプローチは、自然言語処理(NLP)分野における数十億乃至数兆パラメータを有するモデルの広範な成功によって裏付けられているように、現在では一般的な手法となっている。しかし、DL研究や大手テクノロジー企業での成功とは裏腹に、ドメイン科学者や企業におけるこうした大規模モデルの広範な実用的導入は、GPUメモリ容量の制限、高コストな学習コスト、さらにはクラウド環境においても限られたGPUリソースという課題によって阻まれている。さらに、モデル選定プロセスはこうしたリソース上の課題を複合的に悪化させる:ユーザーは特定のタスクやデータセットに適したモデルを探索する際、異なるハイパーパラメータやニューラルアーキテクチャを数十ものモデルで比較する必要があることが一般的である。本論文では、こうした課題に取り組むため、リソース効率的な方法でコンシューマー用GPU上でもマルチ大規模モデル向けDLワークロードの即時スケーラビリティを実現するシステム「Hydra」を提案する。Hydraは、大規模DLモデル向けのマルチモデルワークロードの実行を包括的に最適化する初めてのアプローチである。我々は、従来の「モデル並列(model-parallel)」実行スキームを、メモリ階層全体にわたるスケーラブルなパラメータオフロード(parameter offloading)に対応するように改変し、さらにこのアプローチをタスク並列型ジョブスケジューリング技術とハイブリッド化することで実現している。Hydraは、モデルパラメータのスケーラビリティと実行並列性を分離することで、1台のコンシューマー用GPU上で60億パラメータ規模のモデルの学習を可能にしている。また、マルチGPU環境におけるタスク並列性のスループット向上の可能性を完全に活用し、ほぼ線形の強スケーリング(strong scaling)を達成しており、こうした大規模モデルに対する厳密なモデル選定がより現実的な選択肢となる可能性を示している。エンドツーエンドの性能評価として、言語モデリングタスクにおけるGPT-2のファインチューニングを実施した結果、HydraはDeepSpeedやGPipeといった最先端の産業用フレームワークの最適設定と比較して、マルチ大規模モデル学習において50%から100%の高い学習スループットを実現した。