Ask Me Anything : Une stratégie simple pour l’instruction des modèles linguistiques

Les grands modèles linguistiques (LLM) se transforment efficacement à de nouvelles tâches dès lors qu’on leur fournit simplement une instruction en langage naturel qui illustre la manière d’exécuter la tâche, sans nécessiter d’entraînement supplémentaire. Cependant, la technique de prompting est une procédure fragile : de petites modifications dans le prompt peuvent entraîner des variations importantes dans les prédictions du modèle. En conséquence, une grande partie des efforts est consacrée à la conception d’un « prompt parfait » pour chaque tâche. Pour réduire l’effort considérable requis pour concevoir des prompts, nous nous demandons plutôt si la production de plusieurs prompts efficaces, mais imparfaits, suivie d’une agrégation de leurs résultats, pourrait mener à une stratégie de prompting de haute qualité. Nos observations ont motivé la proposition de notre méthode de prompting : ASK ME ANYTHING (AMA). Nous avons d’abord identifié les formats de prompts les plus efficaces, en constatant que les prompts de type « question-réponse » (QA), qui encouragent une génération ouverte (par exemple : « Qui est allé au parc ? »), surpassent nettement ceux qui restreignent les sorties du modèle (par exemple : « John est allé au parc. Répondez par Vrai ou Faux. »). Notre approche utilise de manière récursive le LLM lui-même pour transformer les entrées de tâche dans le format QA efficace. Nous appliquons ensuite les prompts collectés afin d’obtenir plusieurs votes bruyants pour l’étiquette réelle de l’entrée. Nous observons que ces prompts peuvent présenter des précisions très différentes ainsi que des dépendances complexes, et proposons donc d’utiliser une supervision faible — une méthode pour combiner les prédictions bruyantes — afin de produire les prédictions finales pour les entrées. Nous évaluons AMA sur plusieurs familles de modèles open-source (par exemple, EleutherAI, BLOOM, OPT et T0) et sur une large gamme de tailles de modèles (de 125M à 175B paramètres), démontrant une amélioration moyenne de 10,2 % par rapport à la méthode few-shot de base. Cette stratégie simple permet au modèle open-source GPT-J-6B de rivaliser et même dépasser les performances du modèle GPT3-175B en few-shot sur 15 des 20 benchmarks populaires. En moyenne sur ces tâches, le modèle GPT-J-6B surpasse le GPT3-175B en few-shot. Nous mettons à disposition notre code à l’adresse suivante : https://github.com/HazyResearch/ama_prompting