Ensemble De Données INFINITY-CHAT Pour La Réponse À Des Questions Ouvertes Réelles
Date
URL du document
INFINITY-CHAT, publié en 2025 par l'Université de Washington en collaboration avec l'Université Carnegie Mellon, l'Institut Allen pour l'intelligence artificielle et d'autres institutions, est le premier ensemble de données à grande échelle à répondre à des questions ouvertes posées par de véritables utilisateurs. Ses articles de recherche associés… Esprit collectif artificiel : l’homogénéité ouverte des modèles de langage (et au-delà) Récompensé par le prix du meilleur article de NeurIPS 2025 (piste DB), cet article vise à étudier systématiquement des questions clés telles que la diversité des modèles de langage dans la génération ouverte, les différences dans les préférences humaines et « l'effet d'essaim artificiel ».
Cet ensemble de données contient plus de 26 000 questions ouvertes réelles posées par des utilisateurs et propose un système de classification complet des requêtes, articulé autour de 6 catégories principales et 17 sous-catégories. Il inclut également les réponses de plus de 70 modèles de langage et 31 250 annotations humaines (incluant les scores absolus et les préférences par paires), chaque échantillon étant évalué en moyenne par 25 annotateurs. L’ensemble de données se compose de quatre parties principales : un corpus de questions ouvertes, des étiquettes de classification multiniveaux, les résultats générés par le modèle et un vaste ensemble de retours d’information humains.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec co-codage IA gratuit, environnement prêt à l'emploi et meilleur prix de GPU.