Sheared LLaMA : Accélération de l’entraînement préalable des modèles linguistiques par élagage structuré

La popularité de LLaMA (Touvron et al., 2023a ; b) et d'autres grands modèles linguistiques (LLM) de taille modérée récemment apparus met en évidence le potentiel de concevoir des LLM plus petits mais tout aussi puissants. Néanmoins, le coût d'entraînement de tels modèles à partir de zéro sur des trillions de tokens reste élevé. Dans ce travail, nous étudions la compression structurée comme une méthode efficace pour développer des LLM plus compacts à partir de modèles pré-entraînés plus grands. Notre approche repose sur deux techniques clés : (1) une compression structurée ciblée, qui réduit un modèle plus grand à une forme cible spécifique en supprimant de manière end-to-end des couches, des têtes, ainsi que les dimensions intermédiaires et cachées ; et (2) un chargement dynamique par lots, qui met à jour dynamiquement la composition des données échantillonnées dans chaque lot d'entraînement en fonction des pertes variables observées dans différentes domaines. Nous démontrons l'efficacité de notre méthode en présentant la série Sheared-LLaMA, en réduisant le modèle LLaMA2-7B à 1,3 milliard et 2,7 milliards de paramètres respectivement. Les modèles Sheared-LLaMA surpassent les meilleurs modèles open-source de taille équivalente, tels que Pythia, INCITE, OpenLLaMA et les modèles concurrents TinyLlama, sur une large gamme d'évaluations en tâches spécifiques et en ajustement par instruction, tout en nécessitant uniquement 3 % des ressources informatiques nécessaires pour entraîner de tels modèles à partir de zéro. Ce travail fournit des preuves convaincantes que l'exploitation de LLM existants via une compression structurée constitue une approche bien plus rentable pour concevoir des petits LLM compétitifs.