HyperAIHyperAI
il y a 17 jours

OPT-IML : Extension de l'apprentissage métainstruction des LLM par le biais de la généralisation

Srinivasan Iyer, Xi Victoria Lin, Ramakanth Pasunuru, Todor Mihaylov, Daniel Simig, Ping Yu, Kurt Shuster, Tianlu Wang, Qing Liu, Punit Singh Koura, Xian Li, Brian O&#39, Horo, Gabriel Pereyra, Jeff Wang, Christopher Dewan, Asli Celikyilmaz, Luke Zettlemoyer, Ves Stoyanov
OPT-IML : Extension de l'apprentissage métainstruction des LLM par le biais de la généralisation
Résumé

Les travaux récents ont montré que le fine-tuning de grands modèles linguistiques pré-entraînés sur une collection de tâches décrites par des instructions, appelé instruction-tuning, améliore leur généralisation zéro et peu de données à des tâches inédites. Toutefois, la compréhension des compromis de performance liés aux différentes décisions prises lors du processus d'instruction-tuning reste limitée. Ces décisions incluent l’échelle et la diversité du benchmark d'instruction-tuning, les différentes stratégies d’échantillonnage des tâches, le fine-tuning avec ou sans exemples (demonstrations), l’entraînement à l’aide de jeux de données spécialisés pour le raisonnement et les dialogues, ainsi que les objectifs mêmes du fine-tuning. Dans ce papier, nous analysons l’impact des choix effectués lors de l'instruction-tuning sur la performance sur des tâches en aval, en échelonnant à la fois la taille du modèle et celle du benchmark. À cette fin, nous avons conçu OPT-IML Bench : un vaste benchmark pour l’apprentissage métacognitif par instruction (Instruction Meta-Learning), comprenant 2000 tâches NLP regroupées en catégories à partir de huit benchmarks existants, et avons mis en place un cadre d’évaluation permettant de mesurer trois types de généralisation : vers des tâches issues de catégories entièrement exclues, vers des tâches exclues au sein de catégories déjà vues, et vers des instances exclues au sein de tâches déjà vues. À travers ce cadre, nous présentons d’abord des aperçus sur les décisions d'instruction-tuning appliquées au modèle OPT-30B, puis exploitons ces observations pour entraîner OPT-IML 30B et 175B, versions instruction-tunées du modèle OPT. OPT-IML démontre les trois capacités de généralisation à ces deux échelles sur quatre benchmarks d’évaluation distincts, couvrant des tâches diverses et des formats d’entrée variés : PromptSource, FLAN, Super-NaturalInstructions et UnifiedSKG. Non seulement OPT-IML surpasse significativement OPT sur tous les benchmarks, mais il se révèle également très compétitif par rapport aux modèles existants fine-tunés spécifiquement sur chacun de ces benchmarks. Nous rendons disponibles OPT-IML à ces deux échelles, ainsi que le cadre d’évaluation OPT-IML Bench.