HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données d'évaluation De SimpleQA : Questions Factuelles Concises Et Réponses Aux questions.

SimpleQA est un jeu de données d'évaluation de la précision factuelle des grands modèles de langage, publié par OpenAI en 2024. Parmi les articles connexes, on peut citer… Mesurer la factualité des formes courtes dans les grands modèles de langageL’objectif est d’évaluer la capacité du modèle à répondre à des questions factuelles courtes, claires et vérifiables de manière univoque, en évitant toute interférence de raisonnements complexes ou de jugements subjectifs dans les résultats de l’évaluation.

L'ensemble de données a été mis à jour et contient désormais 4 326 exemples de questions, couvrant de multiples thèmes tels que les sciences et technologies, l'art et le divertissement. Parmi celles-ci, 4 321 constituent l'ensemble de test officiel et 5 sont utilisées pour l'évaluation avec peu d'exemples. Chaque question possède une réponse standard unique et incontestée, vérifiée par deux formateurs humains indépendants à partir de sources fiables afin d'en garantir l'exactitude et la vérifiabilité. Chaque exemple de l'ensemble de données est également étiqueté avec le thème de la question, le type de réponse (par exemple, personne, nombre ou lieu) et des liens utiles pour faciliter une évaluation précise et l'analyse des résultats.

Comparé aux précédents jeux de données de référence, SimpleQA est nettement plus exigeant, et même la précision des modèles les plus performants actuels sur ce jeu de données est clairement limitée. Il peut donc servir d'outil de test intensif pour évaluer la fiabilité factuelle des modèles.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp