17日前

シアーLlama：構造的プルーニングを用いた言語モデル事前学習の高速化

Mengzhou Xia, Tianyu Gao, Zhiyuan Zeng, Danqi Chen

要約

LLaMA（Touvron他, 2023a; b）をはじめとする最近登場した中規模の大規模言語モデル（LLM）の普及は、より小型でありながら強力なLLMの構築可能性を示唆している。しかし、数兆トークン規模のデータ上でこうしたモデルをゼロから訓練するコストは依然として極めて高い。本研究では、事前学習済みの大規模モデルからより小型なLLMを構築する有効な手段として、構造的プルーニング（structured pruning）に着目する。本手法は以下の2つの鍵となる技術を採用している：（1）ターゲット構造への指向的構造的プルーニング——エンド・ツー・エンドのアプローチにより、層、ヘッド、中間層および隠れ次元を削除することで、大規模モデルを指定された目標サイズにまで縮小する手法——および（2）動的バッチロード（dynamic batch loading）——異なるドメインにおける損失の変動に基づき、各訓練バッチにおけるサンプルデータの構成を動的に更新する手法。本研究では、LLaMA2-7Bモデルを1.3Bおよび2.7Bパラメータにまでプルーニングした「Sheared-LLaMAシリーズ」を提示することで、本手法の有効性を実証した。Sheared-LLaMAモデルは、Pythia、INCITE、OpenLLaMA、および同時期に登場したTinyLlamaといった同等規模の最先端オープンソースモデルを上回る性能を、広範な下流タスクおよびインストラクションチューニング評価において示している一方で、ゼロからモデルを訓練する場合に比べて計算リソースのわずか3％にとどまる。本研究は、既存のLLMに対して構造的プルーニングを活用することは、競争力を持つ小規模LLMを構築する上で、はるかにコスト効率の高いアプローチであることを強く示している。