Réexaminer la capacité de généralisation compositionnelle des grands modèles de langage en tenant compte de leur aptitude à suivre les instructions

Dans les tâches de raisonnement communiquant génératif telles que CommonGen, les grands modèles de langage génératifs (LLMs) composent des phrases qui incluent tous les concepts donnés. Cependant, lorsqu'on se concentre sur les capacités d'exécution d'instructions, si une invite spécifie un ordre de concepts, les LLMs doivent générer des phrases qui respectent cet ordre. Pour répondre à ce besoin, nous proposons Ordered CommonGen, un benchmark conçu pour évaluer la généralisation compositionnelle et les capacités d'exécution d'instructions des LLMs. Ce benchmark mesure la couverture ordonnée afin de déterminer si les concepts sont générés dans l'ordre spécifié, permettant ainsi une évaluation simultanée de ces deux compétences. Nous avons effectué une analyse approfondie en utilisant 36 LLMs et constaté que, bien que ces modèles comprennent généralement l'intention des instructions, leurs biais en faveur de certains schémas d'ordre de concepts conduisent souvent à des sorties peu diversifiées ou identiques même lorsque l'ordre des concepts est modifié. De plus, même le modèle de langage le plus conforme aux instructions n'a atteint qu'une couverture ordonnée d'environ 75 %, soulignant la nécessité d'améliorer à la fois les capacités d'exécution d'instructions et de généralisation compositionnelle.