HyperAIHyperAI

Command Palette

Search for a command to run...

Réexaminer la capacité de généralisation compositionnelle des grands modèles de langage en tenant compte de leur aptitude à suivre les instructions

Yusuke Sakai Hidetaka Kamigaito Taro Watanabe

Résumé

Dans les tâches de raisonnement communiquant génératif telles que CommonGen, les grands modèles de langage génératifs (LLMs) composent des phrases qui incluent tous les concepts donnés. Cependant, lorsqu'on se concentre sur les capacités d'exécution d'instructions, si une invite spécifie un ordre de concepts, les LLMs doivent générer des phrases qui respectent cet ordre. Pour répondre à ce besoin, nous proposons Ordered CommonGen, un benchmark conçu pour évaluer la généralisation compositionnelle et les capacités d'exécution d'instructions des LLMs. Ce benchmark mesure la couverture ordonnée afin de déterminer si les concepts sont générés dans l'ordre spécifié, permettant ainsi une évaluation simultanée de ces deux compétences. Nous avons effectué une analyse approfondie en utilisant 36 LLMs et constaté que, bien que ces modèles comprennent généralement l'intention des instructions, leurs biais en faveur de certains schémas d'ordre de concepts conduisent souvent à des sorties peu diversifiées ou identiques même lorsque l'ordre des concepts est modifié. De plus, même le modèle de langage le plus conforme aux instructions n'a atteint qu'une couverture ordonnée d'environ 75 %, soulignant la nécessité d'améliorer à la fois les capacités d'exécution d'instructions et de généralisation compositionnelle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp