HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données Sur Les Questions Non Résolues De l'UQ

Rejoignez la communauté Discord

*Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

L'ensemble de données de l'UQ est un référentiel d'évaluation publié en 2025 par l'Université Stanford, l'Université de Washington, l'Université de Caroline du Nord et d'autres institutions. Les résultats de l'étude sont les suivants :UQ : Évaluation des modèles linguistiques sur des questions non résolues", qui vise à évaluer le raisonnement, la factualité et les capacités de navigation de grands modèles de pointe en utilisant des « problèmes » réels et difficiles auxquels la société humaine n'a pas répondu.

L'ensemble de données comprend 500 questions sans réponse de longue date issues de la plateforme Stack Exchange, couvrant des sujets tels que la théorie informatique, les mathématiques, la science-fiction et l'histoire. Il adopte un pipeline de collecte « filtrage de règles + révision LLM + révision manuelle » et est équipé de validateurs UQ pour la présélection automatique et l'évaluation communautaire des réponses des candidats. Ses caractéristiques sont : une évaluation difficile mais réaliste, asynchrone et une séparation génération-vérification. Il est adapté à des scénarios tels que l'évaluation par raisonnement/récupération de modèles de pointe, le suivi des progrès à long terme et les classements publics.

Distribution des données :

  • Sciences : 395
  • Technologie : 52
  • Culture et loisirs : 16
  • Vie et Arts : 35
Processus de construction du jeu de données

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Ensemble De Données Sur Les Questions Non Résolues De l'UQ | Ensembles de données | HyperAI