il y a 15 jours

MixLoRA : Amélioration de la fine-tuning des grands modèles linguistiques grâce à un mélange d'experts basé sur LoRA

Dengchun Li, Yingzi Ma, Naizheng Wang, Zhengmao Ye, Zhiyuan Cheng, Yinghao Tang, Yan Zhang, Lei Duan, Jie Zuo, Cal Yang, Mingjie Tang

Voir les détails de l'article

MixLoRA : Amélioration de la fine-tuning des grands modèles linguistiques grâce à un mélange d'experts basé sur LoRA

Résumé

L’ajustement fin (fine-tuning) des grands modèles linguistiques (LLM) est une pratique courante visant à adapter des modèles pré-entraînés à des applications spécifiques. Bien que des méthodes comme LoRA aient efficacement atténué les contraintes de mémoire GPU lors de l’ajustement fin, leurs performances restent souvent insuffisantes, notamment dans les scénarios multi-tâches. À l’inverse, les modèles à mélange d’experts (Mixture-of-Experts, MoE), tels que Mixtral 8x7B, démontrent des performances remarquables dans les tâches multi-tâches tout en maintenant un nombre réduit de paramètres. Toutefois, les exigences en ressources de ces modèles MoE restent élevées, particulièrement pour les GPU grand public disposant de moins de 24 Go de mémoire. Pour relever ces défis, nous proposons MixLoRA, une approche visant à construire un modèle MoE creux efficace en ressources basé sur LoRA. MixLoRA insère plusieurs experts basés sur LoRA dans le bloc de réseau feed-forward d’un modèle dense pré-entraîné figé, et utilise un routeur top-k couramment employé. Contrairement aux autres méthodes MoE basées sur LoRA, MixLoRA améliore les performances du modèle en exploitant des adaptateurs LoRA indépendants pour les couches d’attention. En outre, une perte auxiliaire de charge équilibrée est intégrée pour atténuer le problème d’imbalanced routing. Nos évaluations montrent que MixLoRA améliore d’environ 9 % l’exactitude par rapport aux méthodes d’ajustement fin par apprentissage par transfert efficace (PEFT) les plus avancées dans les scénarios multi-tâches. Nous proposons également un nouveau cadre à haut débit afin de réduire les goulets d’étranglement liés au calcul et à la mémoire lors de l’entraînement et de l’inférence des modèles MoE. Ce cadre permet de réduire la consommation de mémoire GPU de 40 % et la latence de calcul par jeton de 30 %, tant pendant l’entraînement que pendant l’inférence.