LaMini-LM : Un ensemble diversifié de modèles distillés à partir d'instructions à grande échelle

Les grands modèles linguistiques (LLM) ajustés par instruction présentent des capacités de génération supérieures. Toutefois, ces modèles sont très exigeants en ressources. Pour atténuer ce problème, nous explorons la distillation de connaissances à partir de grands modèles linguistiques ajustés par instruction vers des modèles bien plus petits. À cette fin, nous avons soigneusement conçu un ensemble étendu de 2,58 millions d'instructions, combinant des instructions existantes et de nouvelles instructions générées. En plus de sa taille importante, notre ensemble d'instructions a été conçu pour couvrir un large éventail de sujets, afin d'assurer une grande diversité. Une analyse approfondie de notre jeu de données d'instructions confirme effectivement sa diversité, et nous avons généré des réponses à ces instructions à l’aide de gpt-3.5-turbo. En exploitant ces instructions, nous avons ajusté une diversité de modèles, regroupés sous le nom collectif de LaMini-LM, incluant des modèles provenant à la fois des familles encodeur-décodage et décodage uniquement, avec des tailles variées. Nous avons évalué les performances de nos modèles à l’aide de métriques automatiques sur 15 benchmarks différents de traitement du langage naturel (NLP), ainsi que par évaluation humaine. Les résultats démontrent que nos modèles LaMini-LM proposés sont comparables aux meilleures solutions existantes, tout en étant significativement plus petits en taille.