il y a 17 jours

Le Fine-Tuning à faible exemple efficace en paramètres est meilleur et moins coûteux que l'apprentissage in-context

Haokun Liu, Derek Tam, Mohammed Muqeeth, Jay Mohta, Tenghao Huang, Mohit Bansal, Colin Raffel

Résumé

L’apprentissage in-context (ICL) à faible exemplaire permet aux modèles linguistiques pré-entraînés de réaliser une tâche auparavant inconnue sans entraînement basé sur les gradients, en intégrant un petit nombre d’exemples d’entraînement directement dans l’entrée. Cependant, l’ICL engendre des coûts computationnels, mémoire et de stockage importants, car il nécessite le traitement de tous les exemples d’entraînement à chaque prédiction. L’ajustement fin efficace en paramètres (PEFT) — par exemple, les modules adaptateurs, l’ajustement des prompts, les méthodes à mise à jour creuse, etc. — propose une alternative, où un petit ensemble de paramètres est entraîné pour permettre au modèle d’accomplir la nouvelle tâche. Dans cet article, nous comparons rigoureusement l’ICL à faible exemplaire et le PEFT, et démontrons que ce dernier offre une meilleure précision ainsi qu’un coût computationnel nettement réduit. Dans le cadre de cette étude, nous introduisons une nouvelle méthode PEFT appelée (IA)$^3$, qui amplifie les activations par des vecteurs appris, obtenant des performances supérieures tout en ajoutant uniquement un nombre relativement négligeable de nouveaux paramètres. Nous proposons également une recette simple basée sur le modèle T0, nommée T-Few, qui peut être appliquée à de nouvelles tâches sans réglage ou modification spécifique à la tâche. Nous validons l’efficacité de T-Few sur des tâches entièrement inédites en la testant sur le benchmark RAFT, atteignant pour la première fois une performance supérieure à celle de l’humain, et surpassant l’état de l’art de 6 points absolus. Tous les codes utilisés dans nos expériences sont disponibles publiquement.