概要

高精度の深層ニューラルネットワーク（DNN）の長い学習時間は、新しいDNNアーキテクチャの研究を阻害し、高精度なDNNの開発を遅らせています。本論文では、GPUクラスタ間でDNNの学習を効果的にスケーリングするFireCaffeを紹介します。また、DNNの学習のスケーリングと加速に関する手法の進歩を比較するための最善の実践方法も提案しています。分散アルゴリズムの速度とスケーラビリティは、サーバ間での通信オーバーヘッドによってほとんど常に制限されます；DNNの学習もこの例外ではありません。したがって、ここでの重要な考慮点は、可能な限り通信オーバーヘッドを削減することであり、同時に学習するDNNモデルの精度を低下させないことです。私たちのアプローチには3つの主要な柱があります。第一に、GPUサーバ間で高い帯域幅を達成するネットワークハードウェアを選択します -- InfinibandやCrayインターコネクトがこれに理想的です。第二に、いくつかの通信アルゴリズムを考えます。そして、伝統的なパラメータサーバアプローチよりもリダクションツリーの方が効率的かつスケーラブルであることがわかりました。第三に、DNN学習中の通信量全体を削減するためにバッチサイズを任意に増加し、大規模バッチサイズを使用して小規模バッチ精度と同じ結果を得るためのハイパーパラメータを見出しました。ImageNet上でGoogLeNetとNetwork-in-Networkを学習させる際には、それぞれ128台のGPUクラスタ上で学習することで47倍と39倍の高速化を達成しました。

ソースPDF