HyperAIHyperAI

Command Palette

Search for a command to run...

MiniLLM:大規模言語モデルの知識蒸留

Yuxian Gu Li Dong Furu Wei Minlie Huang

概要

知識蒸留(Knowledge Distillation, KD)は、大規模言語モデル(LLM)の高い計算負荷を低減する有望な手法である。しかし、従来のKD手法は主にホワイトボックス分類モデルに適用されており、あるいはChatGPTのようなブラックボックスモデルのAPIを模倣するように小さなモデルを訓練するものに限られていた。一方で、ホワイトボックス型LLMの知識を小型モデルに効果的に蒸留する方法についてはまだ十分に検討されておらず、オープンソースLLMの急速な発展を背景に、その重要性はさらに高まっている。本研究では、LLMからより小型の言語モデルへと知識を蒸留するKD手法を提案する。まず、従来のKD手法で用いられる前向きKullback-Leibler divergence(KLD)目的関数を、生成型言語モデルへの適用に適した逆向きKLDに置き換えることで、教師モデルの低確率領域に対する生徒モデルの過大評価を防ぐ。次に、この目的関数を効果的に最適化するためのアプローチを導出する。提案する生徒モデルは「MiniLLM」と命名した。インストラクション忠実度設定における広範な実験結果から、MiniLLMはベースラインモデルと比較して、より正確な応答を生成し、全体的な品質が高く、露出バイアスが低く、補正(calibration)性能に優れ、長文生成性能も高いことが示された。本手法は、120Mから13Bパラメータ規模の異なるモデルファミリにスケーラブルに適用可能である。本研究のコード、データ、モデルチェックポイントは、https://github.com/microsoft/LMOps/tree/main/minillm にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MiniLLM:大規模言語モデルの知識蒸留 | 記事 | HyperAI超神経