2ヶ月前
パラメータ効率の高い疎性設計:稠密からエキスパートの混合への変換による一般タスクの指示調整
Haoyuan Wu; Haisheng Zheng; Zhuolun He; Bei Yu

要約
大規模言語モデル(LLMs)は、一般的な自然言語処理(NLP)タスクにおいて相当な能力を示しています。指示微調整は、成功したパラダイムの一つで、これらのモデルが自然言語の指示に従う能力を向上させ、一般的なタスク間での堅牢な汎化性能を発揮させることが可能です。しかし、これらのモデルは、複数のタスクにおいて性能制限に遭遇することがよくあります。これは、モデル容量が制約されているためです。指示微調整フェーズ中にこの容量を拡張することは大きな課題となっています。この問題に対処するために、我々はパラメータ効率的な疎性形成(PESC)を導入します。PESCは、エキスパートの混合(MoE)アーキテクチャを使用して、密なモデルを疎なモデルに形成します。PESCは疎なモデルのMoE層にアダプターを統合し、これらの層内の個々の重みを変更せずにエキスパートを区別します。この手法により、計算コストとGPUメモリ要件が大幅に削減され、関数空間における近似品質を保証しつつ最小限のパラメータ増加でモデル容量の拡張が可能となります。我々の経験的評価では、PESC手法の有効性が示されています。指示微調整時にPESCを使用することで、最良の疎なモデルは他の疎なモデルや密なモデルよりも優れた性能を発揮し、GPT-3.5と比較してより優れた汎化能力を持つことが確認されました。当方のコードはhttps://github.com/wuhy68/Parameter-Efficient-MoE で公開されています。