HyperAIHyperAI

Command Palette

Search for a command to run...

LaMini-LM:大規模な指示から得られた多様な蒸留モデル群

Minghao Wu Abdul Waheed Chiyu Zhang Muhammad Abdul-Mageed Alham Fikri Aji

概要

指示微調整を施した大規模言語モデル(LLM)は、優れた生成能力を示す一方で、リソースを大量に消費するという課題がある。この問題を緩和するため、本研究では、指示微調整済みのLLMから、はるかに小さなモデルへと知識を蒸留(knowledge distillation)する手法を検討する。そのために、既存の指示に加え、新たに生成した指示を含む合計258万件の指示データセットを体系的に構築した。単に規模が大きいだけでなく、幅広いトピックをカバーするように設計することで、データセットの多様性を確保した。本指示データセットの包括的な分析により、その多様性が確認された。また、これらの指示に対して、gpt-3.5-turboを用いて応答を生成した。この指示データセットを活用し、エンコーダ・デコーダ型およびデコーダオンリー型の異なるサイズのモデルを含む多様なモデル群を微調整した。これらを総称して「LaMini-LM」と呼ぶ。LaMini-LMの性能は、15の異なる自然言語処理(NLP)ベンチマークにおいて自動評価指標を用いて評価するとともに、人間による評価も実施した。その結果、提案するLaMini-LMモデルは、競合するベースラインと同等の性能を達成している一方で、モデルサイズははるかに小さく、効率性に優れていることが明らかになった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
LaMini-LM:大規模な指示から得られた多様な蒸留モデル群 | 記事 | HyperAI超神経