OPT-IML : Extension de l'apprentissage métainstruction des LLM par le biais de la généralisation

Les travaux récents ont montré que le fine-tuning de grands modèles linguistiques pré-entraînés sur une collection de tâches décrites par des instructions, appelé instruction-tuning, améliore leur généralisation zéro et peu de données à des tâches inédites. Toutefois, la compréhension des compromis de performance liés aux différentes décisions prises lors du processus d'instruction-tuning reste limitée. Ces décisions incluent l’échelle et la diversité du benchmark d'instruction-tuning, les différentes stratégies d’échantillonnage des tâches, le fine-tuning avec ou sans exemples (demonstrations), l’entraînement à l’aide de jeux de données spécialisés pour le raisonnement et les dialogues, ainsi que les objectifs mêmes du fine-tuning. Dans ce papier, nous analysons l’impact des choix effectués lors de l'instruction-tuning sur la performance sur des tâches en aval, en échelonnant à la fois la taille du modèle et celle du benchmark. À cette fin, nous avons conçu OPT-IML Bench : un vaste benchmark pour l’apprentissage métacognitif par instruction (Instruction Meta-Learning), comprenant 2000 tâches NLP regroupées en catégories à partir de huit benchmarks existants, et avons mis en place un cadre d’évaluation permettant de mesurer trois types de généralisation : vers des tâches issues de catégories entièrement exclues, vers des tâches exclues au sein de catégories déjà vues, et vers des instances exclues au sein de tâches déjà vues. À travers ce cadre, nous présentons d’abord des aperçus sur les décisions d'instruction-tuning appliquées au modèle OPT-30B, puis exploitons ces observations pour entraîner OPT-IML 30B et 175B, versions instruction-tunées du modèle OPT. OPT-IML démontre les trois capacités de généralisation à ces deux échelles sur quatre benchmarks d’évaluation distincts, couvrant des tâches diverses et des formats d’entrée variés : PromptSource, FLAN, Super-NaturalInstructions et UnifiedSKG. Non seulement OPT-IML surpasse significativement OPT sur tous les benchmarks, mais il se révèle également très compétitif par rapport aux modèles existants fine-tunés spécifiquement sur chacun de ces benchmarks. Nous rendons disponibles OPT-IML à ces deux échelles, ainsi que le cadre d’évaluation OPT-IML Bench.