11日前

LaMini-LM:大規模な指示から得られた多様な蒸留モデル群

Minghao Wu, Abdul Waheed, Chiyu Zhang, Muhammad Abdul-Mageed, Alham Fikri Aji
LaMini-LM:大規模な指示から得られた多様な蒸留モデル群
要約

指示微調整を施した大規模言語モデル(LLM)は、優れた生成能力を示す一方で、リソースを大量に消費するという課題がある。この問題を緩和するため、本研究では、指示微調整済みのLLMから、はるかに小さなモデルへと知識を蒸留(knowledge distillation)する手法を検討する。そのために、既存の指示に加え、新たに生成した指示を含む合計258万件の指示データセットを体系的に構築した。単に規模が大きいだけでなく、幅広いトピックをカバーするように設計することで、データセットの多様性を確保した。本指示データセットの包括的な分析により、その多様性が確認された。また、これらの指示に対して、gpt-3.5-turboを用いて応答を生成した。この指示データセットを活用し、エンコーダ・デコーダ型およびデコーダオンリー型の異なるサイズのモデルを含む多様なモデル群を微調整した。これらを総称して「LaMini-LM」と呼ぶ。LaMini-LMの性能は、15の異なる自然言語処理(NLP)ベンチマークにおいて自動評価指標を用いて評価するとともに、人間による評価も実施した。その結果、提案するLaMini-LMモデルは、競合するベースラインと同等の性能を達成している一方で、モデルサイズははるかに小さく、効率性に優れていることが明らかになった。

LaMini-LM:大規模な指示から得られた多様な蒸留モデル群 | 最新論文 | HyperAI超神経