il y a 11 jours

Transformer Models Libérés : Une Attribution de Contexte Spécifique à la Tâche Promet une Généralisation Améliorée Sans Réajustement des LLM Pré-entraînés

Stepan Tytarenko, Mohammad Ruhul Amin

Résumé

L’ajustement fin (fine-tuning) des grands modèles pré-entraînés en langage (LLM) sur des jeux de données spécifiques est une stratégie couramment utilisée dans les tâches de classification du traitement du langage naturel (NLP). Toutefois, cette approche entraîne généralement une perte de généralisation du modèle. Dans cet article, nous présentons un cadre permettant de préserver la généralisation tout en améliorant les performances sur la tâche en aval grâce à une attribution contextuelle spécifique à la tâche. Nous démontrons qu’une transformation linéaire de la représentation textuelle issue de tout modèle Transformer, utilisant un opérateur de concept spécifique à la tâche, conduit à une projection dans l’espace latent des concepts, appelée attribution contextuelle dans ce travail. Cet opérateur de concept spécifique est optimisé durant la phase d’apprentissage supervisé à l’aide de nouvelles fonctions de perte. Le cadre proposé montre que l’attribution contextuelle de la représentation textuelle pour chaque objectif de tâche améliore la capacité de la fonction discriminateur, permettant ainsi d’atteindre de meilleures performances dans la tâche de classification. Les résultats expérimentaux sur trois jeux de données — HateXplain, critiques IMDB et attributions sur les médias sociaux — démontrent que le modèle proposé atteint une précision et une généralisation supérieures. Plus précisément, pour le BERT non ajusté finement sur le jeu de données HateXplain, nous observons une amélioration de 8 % en précision et de 10 % en score F1. Pour le jeu de données IMDB, le modèle XLNet d’état de l’art ajusté finement est surpassé de 1 % en précision et en score F1. De plus, dans un test cross-dataset hors domaine, DistilBERT ajusté finement sur IMDB et combiné au modèle proposé améliore le score F1 sur HateXplain de 7 %. Pour le jeu de données Social Media Attributions (commentaires YouTube), une augmentation de 5,2 % du score F1 est observée. Le cadre proposé a été implémenté avec PyTorch et est mis à disposition gratuitement sur GitHub.