HyperAIHyperAI
il y a 17 jours

Fine-tuning supervisé par étiquettes de LLaMA

Zongxi Li, Xianming Li, Yuzhang Liu, Haoran Xie, Jing Li, Fu-lee Wang, Qing Li, Xiaoqin Zhong
Fine-tuning supervisé par étiquettes de LLaMA
Résumé

Le succès récent des grands modèles linguistiques (LLM) a suscité un intérêt croissant tant dans le milieu académique que dans l’industrie. De considérables efforts ont été déployés pour améliorer les capacités de généralisation zéro- et peu-faible des LLM open-source grâce au fine-tuning. Actuellement, l’approche dominante repose sur l’instruction-tuning, qui consiste à entraîner les LLM à accomplir des tâches du monde réel en générant des réponses guidées par des instructions en langage naturel. Il convient de noter que cette approche peut se révéler sous-performante dans les tâches de classification de séquences et de tokens. Contrairement aux tâches de génération de texte, les tâches de classification disposent d’un espace de labels restreint, où une prédiction précise des labels est préférée à la génération de réponses variées et humaines. Des travaux antérieurs ont montré que les LLM fine-tunés par instruction ne parviennent pas à surpasser BERT, ce qui nous a incités à explorer le potentiel d’exploiter les représentations latentes des LLM pour la prédiction supervisée des labels. Dans cet article, nous introduisons une adaptation supervisée par label pour les LLM, visant à fine-tuner le modèle à l’aide de labels discriminants. Nous évaluons cette approche à travers Label Supervised LLaMA (LS-LLaMA), basé sur LLaMA-2-7B, un LLM de taille relativement modeste, pouvant être fine-tuné sur une seule GPU GeForce RTX4090. Nous extrayons les représentations latentes issues de la dernière couche de LLaMA et les projetons dans l’espace des labels afin de calculer la perte d’entropie croisée. Le modèle est fine-tuné par adaptation de rang faible (LoRA) afin de minimiser cette perte. De manière remarquable, sans recourir à une ingénierie de prompts complexe ni à des connaissances externes, LS-LLaMA surpasse significativement des LLM dix fois plus volumineux, tout en offrant des améliorations constantes par rapport à des modèles de référence robustes tels que BERT-Large et RoBERTa-Large dans les tâches de classification de texte. En outre, en supprimant le masque causal des décodeurs, LS-unLLaMA atteint des performances de pointe dans la reconnaissance d’entités nommées (NER). Ce travail ouvre la voie à une nouvelle approche pour adapter les LLM à diverses tâches en aval.