Command Palette
Search for a command to run...
Blagoev Nikolay Ersoy O\u011fuzhan Chen Lydia Yiyu

要約
分散型および低性能な計算ノード(例えば、複数のオンサイトインスタンス)で大規模言語モデル(LLM)を訓練することで、訓練コストが削減され、モデルの民主化が可能になります。ただし、この方法にはノードの故障やオペレーターのスケジュー�ーリングポリシーによるノードの入れ替えという不可避の課題があります。これにより、モデルの一部であるステージが失われる可能性があります。従来の故障からの回復手法は、定期的に全体のモデルコピーを追加ストレージに送信するチェックポイント法や冗長計算を使用することですが、これらの手法は故障が発生しなくても通信や計算負荷が大きく、大規模なモデルではスケーラビリティが悪くなります。本論文では、CheckFreeと呼ばれる効率的な回復方法を提案します。この方法では、故障したステージを最も近い隣接ステージの加重平均で置き換えます。最新技術と比較して、CheckFreeは追加の計算やストレージを必要とせず、中間ステージの故障のみを回復できます。さらに、最初と最後のステージのクラッシュにも対応できるようにするために、順不同パイプライン実行を導入したCheckFree+も提案します。順不同パイプラインにより、これらのステージの動作は隣接するステージによって模倣され、CheckFree+は即座に隣接するステージから重みをコピーすることでそれらを回復できます。(デ)埋め込み層を回復するためには、CheckFree+はこれらの層を隣接するステージにコピーし、比較的小さなストレージ負荷が必要となります。我々は124Mから1.5Bまでの異なるモデルサイズを持つLLaMaモデルで本手法を広範に評価しました。低頻度および中頻度(5-10%)での故障の場合、CheckFreeおよびCheckFree+はウォールクロック時間における収束速度においてチェックポイント法と冗長計算法よりも12%以上優れたパフォーマンスを示しました。我々の提案手法は以下のURLから利用可能なコードで実行できます:https://github.com/gensyn-ai/CheckFree