HyperAIHyperAI
il y a 3 mois

Entraînement à l'heure du test sur les voisins les plus proches pour les grands modèles linguistiques

Moritz Hardt, Yu Sun
Entraînement à l'heure du test sur les voisins les plus proches pour les grands modèles linguistiques
Résumé

De nombreuses recherches récentes enrichissent les modèles de langage par récupération, en ajoutant des données récupérées au contexte d’entrée. Pour que cette approche soit efficace, les données récupérées doivent être intégrées à la fois pendant l’entraînement et au moment du test. En outre, comme la longueur d’entrée croît linéairement avec la taille des données récupérées, le coût en calcul et en mémoire augmente quadratiquement pour les Transformers modernes. Pour éviter ces complications, nous ajustons simplement le modèle sur les données récupérées au moment du test, en utilisant son cadre d’entraînement standard. Nous avons construit un index distribué à grande échelle basé sur les embeddings textuels du jeu de données Pile. Pour chaque entrée de test, notre système récupère ses voisins et ajuste le modèle sur leur texte. De manière surprenante, la récupération et l’entraînement sur aussi peu que 20 voisins, chacun pendant une seule itération de gradient, améliorent considérablement les performances sur plus de 20 tâches de modélisation du langage du Pile. Par exemple, l’entraînement au moment du test avec les voisins les plus proches réduit de plus de dix fois l’écart de performance entre un petit modèle GPT-2 et un modèle GPT-Neo plus de dix fois plus volumineux. Toutefois, une qualité et une taille suffisantes de l’index s’avèrent indispensables. Ce travail établit la première référence (baseline) pour l’entraînement au moment du test dans le domaine de la modélisation du langage.