il y a 11 jours

Exploration des avantages de former des modèles linguistiques experts par rapport au fine-tuning par instruction

Joel Jang, Seungone Kim, Seonghyeon Ye, Doyoung Kim, Lajanugen Logeswaran, Moontae Lee, Kyungjae Lee, Minjoon Seo

Résumé

Récemment, les modèles linguistiques (LM) ajustés par instruction sur plusieurs tâches, également appelés fine-tuning multitâche par prompt (MT), ont démontré une capacité à généraliser à des tâches inédites. Des travaux antérieurs ont montré que l’augmentation du nombre de tâches d’entraînement constitue le facteur clé pour développer des LM MT plus puissants. Dans ce travail, nous rapportons une découverte inattendue : un LM expert ajusté sur une seule tâche peut surpasser un LM MT entraîné sur plus de 300 tâches différentes, sur 11 jeux de données inédits et sur 13 jeux de données du benchmark BIG-bench, avec une précision moyenne respectivement supérieure de 3,20 % et 1,29 %. Ce résultat remet en question l’idée reçue selon laquelle l’augmentation du nombre de tâches suffit à produire des LM MT plus performants. En s’appuyant sur cette découverte, nous montrons également que l’approche distribuée consistant à entraîner un LM expert distinct pour chaque tâche, plutôt qu’un seul LM MT pour l’inférence zéro-shot, présente de nombreux avantages, notamment : (1) éviter le transfert négatif entre tâches, souvent observé lors du fine-tuning par instruction ; (2) permettre l’apprentissage continu de nouvelles tâches sans avoir à réentraîner sur les tâches précédentes, évitant ainsi le oubli catastrophique ; (3) exhiber une capacité de composition lors de la fusion des experts individuels. Le code est disponible à l’adresse suivante : https://github.com/joeljang/ELM.