Google、分散型DiLoCoを発表:分散AI学習の新たな最前線
Google は分散 AI 学習のための新アーキテクチャ「Decoupled DiLoCo」を発表しました。従来の大規模モデル学習では、数千個のチップをほぼ完璧な同期でつなぐ必要があり、スケーラビリティとコスト面で課題となっていました。一方、Decoupled DiLoCo は計算リソースを非同期で動く複数の「島」に分割し、データの流れを分離することで、部分的な障害が全体に波及するのを防ぎます。この手法により、広域ネットワークの帯域幅に依存せず、既存のインターネット回線を利用して効率的な分散学習が可能になります。 実際に Google のチームは、米国の 4 つの地域にまたがるデータセンターを 2-5Gbps のネットワークで接続し、120 億パラメータのモデルの事前学習に成功しました。従来の同期手法と比較して、この新しいシステムは 20 倍以上の速度向上を達成しました。これは、通信を計算の長い期間に組み込むことで、システム全体が一方の計算を待つ待ち時間を回避したためです。 また、この技術は異なる世代のハードウェアを一つの学習ジョブに組み合わせて利用する能力も提供します。例えば、最新の TPU v6e と前世代の TPO v5p を混在させても、機械学習性能は単一世代のハードウェアによる学習と同等を維持します。これにより、古いハードウェアの有効寿命を延ばし、限られた計算リソースを最大限に活用できます。 Google のこのアプローチは、ハードウェア、ソフトウェア、研究の全層にわたるフルスタックの革新の一例です。Decoupled DiLoCo は、地理的に分散した unused な計算リソースを活用し、将来の AI モデルのスケールアップに向けた基盤を提供します。この技術は、大規模モデルの学習をより柔軟で回復力のあるものにし、今後の AI 発展を支える重要な役割を果たすことが期待されます。今回の研究は、Google DeepMind と Google Research のチームによって行われ、多数の関係者の支援により実現しました。
