11日前

LaMini-LM：大規模な指示から得られた多様な蒸留モデル群

Minghao Wu, Abdul Waheed, Chiyu Zhang, Muhammad Abdul-Mageed, Alham Fikri Aji

要約

指示微調整を施した大規模言語モデル（LLM）は、優れた生成能力を示す一方で、リソースを大量に消費するという課題がある。この問題を緩和するため、本研究では、指示微調整済みのLLMから、はるかに小さなモデルへと知識を蒸留（knowledge distillation）する手法を検討する。そのために、既存の指示に加え、新たに生成した指示を含む合計258万件の指示データセットを体系的に構築した。単に規模が大きいだけでなく、幅広いトピックをカバーするように設計することで、データセットの多様性を確保した。本指示データセットの包括的な分析により、その多様性が確認された。また、これらの指示に対して、gpt-3.5-turboを用いて応答を生成した。この指示データセットを活用し、エンコーダ・デコーダ型およびデコーダオンリー型の異なるサイズのモデルを含む多様なモデル群を微調整した。これらを総称して「LaMini-LM」と呼ぶ。LaMini-LMの性能は、15の異なる自然言語処理（NLP）ベンチマークにおいて自動評価指標を用いて評価するとともに、人間による評価も実施した。その結果、提案するLaMini-LMモデルは、競合するベースラインと同等の性能を達成している一方で、モデルサイズははるかに小さく、効率性に優れていることが明らかになった。