Crafting de la parcimonie paramétrique efficace : du dense au mélange d'experts pour l'ajustement des instructions sur des tâches générales

Les grands modèles de langage (LLMs) ont démontré une compétence considérable dans les tâches générales de traitement du langage naturel (NLP). L'ajustement des instructions, un paradigme réussi, améliore la capacité des LLMs à suivre des instructions en langage naturel et à montrer une généralisation robuste sur un large éventail de tâches. Cependant, ces modèles rencontrent souvent des limites de performance sur plusieurs tâches en raison d'une capacité de modèle limitée. Étendre cette capacité pendant la phase d'ajustement des instructions présente des défis importants. Pour résoudre ce problème, nous introduisons le craft de parcimonie à efficacité paramétrique (PESC), qui transforme des modèles denses en modèles parcimonieux en utilisant l'architecture de mélange d'experts (MoE). Le PESC intègre des adaptateurs dans les couches MoE des modèles parcimonieux, différenciant les experts sans modifier les poids individuels au sein de ces couches. Cette méthode réduit considérablement les coûts de calcul et les exigences en mémoire GPU, facilitant l'extension de la capacité du modèle par une augmentation minimale des paramètres tout en garantissant la qualité de l'approximation dans l'espace fonctionnel par rapport au recyclage parcimonieux original. Notre évaluation empirique démontre l'efficacité de la méthode PESC. En utilisant PESC lors de l'ajustement des instructions, notre meilleur modèle parcimonieux surpassait d'autres modèles parcimonieux et denses et présentait des capacités générales supérieures comparées à GPT-3.5. Notre code est disponible sur https://github.com/wuhy68/Parameter-Efficient-MoE.