HyperAIHyperAI
il y a 17 jours

MiniLLM : Distillation de connaissances des grands modèles linguistiques

Yuxian Gu, Li Dong, Furu Wei, Minlie Huang
MiniLLM : Distillation de connaissances des grands modèles linguistiques
Résumé

La distillation de connaissances (KD) est une technique prometteuse pour réduire la forte charge computationnelle des grands modèles linguistiques (LLM). Toutefois, les méthodes de KD précédentes sont principalement appliquées à des modèles de classification à boîte blanche ou visent à entraîner de petits modèles pour imiter les interfaces API de modèles à boîte noire tels que ChatGPT. La question de la distillation efficace des connaissances provenant de LLM à boîte blanche vers des modèles plus petits reste largement sous-exploree, ce qui devient particulièrement crucial avec l'essor des LLM open-source. Dans ce travail, nous proposons une approche de KD permettant de distiller les LLM vers des modèles linguistiques plus petits. Nous remplaçons d'abord l'objectif classique basé sur la divergence de Kullback-Leibler (KLD) dans les approches de KD traditionnelles par une KLD inverse, plus adaptée à la distillation sur des modèles génératifs linguistiques, afin d'éviter que le modèle étudiant ne surestime les régions à faible probabilité de la distribution du modèle enseignant. Ensuite, nous dérivons une approche d'optimisation efficace pour apprendre cet objectif. Les modèles étudiants ainsi obtenus sont nommés MiniLLM. Des expériences étendues dans un cadre d'interaction par instruction montrent que MiniLLM produit des réponses plus précises, de meilleure qualité globale, avec une biais d'exposition plus faible, une meilleure calibration et des performances supérieures en génération de textes longs par rapport aux méthodes de référence. Notre approche est scalable à différentes familles de modèles, allant de 120M à 13B paramètres. Le code, les données et les points de contrôle des modèles sont disponibles à l'adresse suivante : https://github.com/microsoft/LMOps/tree/main/minillm.

MiniLLM : Distillation de connaissances des grands modèles linguistiques | Articles de recherche récents | HyperAI