Utiliser ce jeu de données Discuter sur Discord

Date

il y a 10 mois

Organisation

URL du document

2509.03059

Licence

MIT

Balises

Reasoning

Benchmarks

LoongBench est un ensemble de données d'évaluation de raisonnement multi-domaines publié par l'équipe CAMEL-AI en 2025. Les résultats de l'article associé sont «Loong : synthétiser une longue chaîne de pensées à grande échelle grâce à des vérificateurs", qui vise à fournir aux LLM des ressources de formation et d'évaluation multi-domaines et vérifiables. L'ensemble de données contient 8 729 questions formulées en langage naturel, couvrant 12 domaines exigeant un raisonnement intensif, tels que les mathématiques avancées, la physique avancée, la chimie, la biologie computationnelle et la programmation. Chaque échantillon est accompagné d'un code exécutable et de réponses vérifiées, ainsi que de l'énoncé du problème, du raisonnement détaillé, de la solution finale, des métadonnées (identifiant de la question et informations sur le domaine) et des étiquettes de domaine. Il est idéal pour l'entraînement et l'évaluation des capacités de raisonnement inter-domaines.

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Ensemble De Données De Référence Pour La Recherche Approfondie Interdisciplinaire DRACO

il y a 2 mois

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

il y a 5 mois

Ensemble De Données De Référence Pour l'évaluation De l'apprentissage Contextuel CL-bench

il y a 4 mois

Ensemble De Données d'évaluation Des Capacités De Planification À Long Terme De DeepPlanning

il y a 5 mois

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

il y a 5 mois

Ensemble De Données d'inférence Multitâche TxT360-3efforts

il y a 6 mois

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

il y a 6 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données Discuter sur Discord

Date

il y a 10 mois

Organisation

URL du document

2509.03059

Licence

MIT

Balises

Reasoning

Benchmarks

undefined

Ensemble De Données De Référence Pour La Recherche Approfondie Interdisciplinaire DRACO

il y a 2 mois

Ensemble De Données ToolACE Pour l'apprentissage Des Outils Complexes

il y a 2 mois

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

il y a 3 mois

Ensemble De Données Synthétiques d'inférence Générale CHIMERA

il y a 4 mois

Ensemble De Données EEG THINGS-EEG

il y a 5 mois

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

il y a 5 mois

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

il y a 5 mois

Ensemble De Données De Référence Pour l'évaluation De l'apprentissage Contextuel CL-bench

il y a 4 mois

Ensemble De Données d'évaluation Des Capacités De Planification À Long Terme De DeepPlanning

il y a 5 mois

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

il y a 5 mois

Ensemble De Données d'inférence Multitâche TxT360-3efforts

il y a 6 mois

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

il y a 6 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Ensemble De Données De Référence De Raisonnement multi-domaines LoongBench

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données De Référence De Raisonnement multi-domaines LoongBench

undefined

Ensemble De Données De Référence Pour La Recherche Approfondie Interdisciplinaire DRACO

Ensemble De Données ToolACE Pour l'apprentissage Des Outils Complexes

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

Ensemble De Données Synthétiques d'inférence Générale CHIMERA

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données De Référence Pour l'évaluation De l'apprentissage Contextuel CL-bench

Ensemble De Données d'évaluation Des Capacités De Planification À Long Terme De DeepPlanning

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données d'inférence Multitâche TxT360-3efforts

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données De Référence De Raisonnement multi-domaines LoongBench

undefined

Ensemble De Données De Référence Pour La Recherche Approfondie Interdisciplinaire DRACO

Ensemble De Données ToolACE Pour l'apprentissage Des Outils Complexes

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

Ensemble De Données Synthétiques d'inférence Générale CHIMERA

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données De Référence Pour l'évaluation De l'apprentissage Contextuel CL-bench

Ensemble De Données d'évaluation Des Capacités De Planification À Long Terme De DeepPlanning

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données d'inférence Multitâche TxT360-3efforts

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

Créer de l'IA avec l'IA

HyperAI Newsletters

undefined

Ensemble De Données De Référence Pour La Recherche Approfondie Interdisciplinaire DRACO

Ensemble De Données ToolACE Pour l'apprentissage Des Outils Complexes

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

Ensemble De Données Synthétiques d'inférence Générale CHIMERA

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données De Référence Pour l'évaluation De l'apprentissage Contextuel CL-bench

Ensemble De Données d'évaluation Des Capacités De Planification À Long Terme De DeepPlanning

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données d'inférence Multitâche TxT360-3efforts

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

undefined

Ensemble De Données De Référence Pour La Recherche Approfondie Interdisciplinaire DRACO

Ensemble De Données ToolACE Pour l'apprentissage Des Outils Complexes

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

Ensemble De Données Synthétiques d'inférence Générale CHIMERA

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données De Référence Pour l'évaluation De l'apprentissage Contextuel CL-bench

Ensemble De Données d'évaluation Des Capacités De Planification À Long Terme De DeepPlanning

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données d'inférence Multitâche TxT360-3efforts

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro