15日前

MixLoRA:LoRAベースのMixture of Expertsを用いた大規模言語モデルの微調整の向上

Dengchun Li, Yingzi Ma, Naizheng Wang, Zhengmao Ye, Zhiyuan Cheng, Yinghao Tang, Yan Zhang, Lei Duan, Jie Zuo, Cal Yang, Mingjie Tang
MixLoRA:LoRAベースのMixture of Expertsを用いた大規模言語モデルの微調整の向上
要約

大規模言語モデル(LLM)のファインチューニングは、事前学習済みモデルを特定の用途に適応させるための一般的な手法である。LoRAなどの手法は、ファインチューニング中のGPUメモリ制約を効果的に緩和しているが、特にマルチタスク環境では性能が十分に発揮されない場合が多い。一方、Mixtral 8x7Bを含むMixture-of-Experts(MoE)モデルは、パラメータ数を抑制しつつもマルチタスク学習において優れた性能を示す。しかし、このようなMoEモデルのリソース要件は依然として高く、24GB未満のメモリを搭載するコンシューマー向けGPUでは運用が困難である。こうした課題に対処するため、本研究ではLoRAに基づくリソース効率の高いスパースMoEモデルの構築を目的とした「MixLoRA」を提案する。MixLoRAは、固定された事前学習済みの密結合モデルのフィードフォワードネットワークブロック内に複数のLoRAベースのエキスパートを挿入し、一般的に用いられるtop-kルーターを採用する。他のLoRAベースのMoE手法とは異なり、MixLoRAは独立したアテンション層用LoRAアダプターを活用することで、モデル性能の向上を実現している。さらに、ルーターの負荷不均衡問題を解消するため、補助的な負荷バランス損失関数を導入している。実験結果から、MixLoRAはマルチタスク学習環境において、最先端のPEFT手法と比較して約9%の精度向上を達成した。また、MoEモデルのトレーニングおよび推論における計算およびメモリのボトルネックを緩和する新しい高スループットフレームワークも提案している。このフレームワークにより、トレーニングおよび推論の両フェーズでGPUメモリ消費を40%削減し、トークン計算レイテンシを30%低減する効果が確認された。

MixLoRA:LoRAベースのMixture of Expertsを用いた大規模言語モデルの微調整の向上 | 最新論文 | HyperAI超神経