Utiliser ce jeu de données Discuter sur Discord

Date

il y a 7 mois

Organisation

URL du document

7a783933efcc

Licence

Apache 2.0

Balises

Reasoning

Benchmarks

FrontierScience est un ensemble de données destiné à l'évaluation des tâches d'inférence et de recherche scientifique, publié par OpenAI en 2025. Parmi les articles associés, on peut citer… FrontierScience : évaluation de la capacité de l'IA à effectuer des tâches scientifiques de niveau expertL'objectif est d'évaluer systématiquement les capacités des grands modèles dans le raisonnement scientifique de niveau expert et les sous-tâches de recherche. Cet ensemble de données utilise un mécanisme de conception de « création d'experts + structure de tâches à deux niveaux + mécanisme de notation automatique » et est divisé en deux sous-ensembles, correspondant à deux types de capacités : raisonnement précis fermé et raisonnement de recherche scientifique ouvert.

Le jeu de données des Olympiades a été conçu à l'origine par des médaillés et des entraîneurs d'équipes nationales des Olympiades internationales de physique, de chimie et de biologie. La difficulté des questions est comparable à celle des compétitions internationales de haut niveau telles que l'IPhO, l'IChO et l'IBO. Il se concentre sur des tâches de raisonnement à réponse courte et exige du modèle qu'il produise une valeur numérique unique, une expression algébrique ou un terme biologique pouvant faire l'objet d'une correspondance approximative, afin de garantir la vérifiabilité des résultats et la stabilité de l'évaluation automatique.
Le jeu de données de recherche est élaboré par des doctorants, des postdoctorants, des professeurs et d'autres chercheurs actifs. Les questions simulent des sous-problèmes susceptibles d'être rencontrés dans la recherche scientifique réelle, couvrant les trois grands domaines que sont la physique, la chimie et la biologie. Chaque question est accompagnée d'une note détaillée sur 10 points permettant d'évaluer la performance du modèle sur plusieurs aspects clés, notamment les hypothèses de modélisation, les démarches de raisonnement et les conclusions intermédiaires, en plus de l'exactitude de la réponse.

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Ensemble De Données d'instructions Pour Les Tâches Créatives Des Professionnels Créatifs

il y a 3 mois

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

il y a 5 mois

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

il y a 5 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données Discuter sur Discord

Date

il y a 7 mois

Organisation

URL du document

7a783933efcc

Licence

Apache 2.0

Balises

Reasoning

Benchmarks

Le jeu de données des Olympiades a été conçu à l'origine par des médaillés et des entraîneurs d'équipes nationales des Olympiades internationales de physique, de chimie et de biologie. La difficulté des questions est comparable à celle des compétitions internationales de haut niveau telles que l'IPhO, l'IChO et l'IBO. Il se concentre sur des tâches de raisonnement à réponse courte et exige du modèle qu'il produise une valeur numérique unique, une expression algébrique ou un terme biologique pouvant faire l'objet d'une correspondance approximative, afin de garantir la vérifiabilité des résultats et la stabilité de l'évaluation automatique.
Le jeu de données de recherche est élaboré par des doctorants, des postdoctorants, des professeurs et d'autres chercheurs actifs. Les questions simulent des sous-problèmes susceptibles d'être rencontrés dans la recherche scientifique réelle, couvrant les trois grands domaines que sont la physique, la chimie et la biologie. Chaque question est accompagnée d'une note détaillée sur 10 points permettant d'évaluer la performance du modèle sur plusieurs aspects clés, notamment les hypothèses de modélisation, les démarches de raisonnement et les conclusions intermédiaires, en plus de l'exactitude de la réponse.

undefined

Ensemble De Données d'instructions Pour Les Tâches Créatives Des Professionnels Créatifs

il y a 3 mois

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

il y a 5 mois

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

il y a 5 mois

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

il y a 8 jours

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

il y a 6 mois

Ensemble De Données d'inférence Multitâche TxT360-3efforts

il y a 8 jours

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

il y a 8 jours

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Ensemble De Données d'évaluation Des Tâches De Recherche Inférentielle De FrontierScience

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données d'évaluation Des Tâches De Recherche Inférentielle De FrontierScience

undefined

Ensemble De Données d'instructions Pour Les Tâches Créatives Des Professionnels Créatifs

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

Ensemble De Données d'inférence Multitâche TxT360-3efforts

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données d'évaluation Des Tâches De Recherche Inférentielle De FrontierScience

undefined

Ensemble De Données d'instructions Pour Les Tâches Créatives Des Professionnels Créatifs

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

Ensemble De Données d'inférence Multitâche TxT360-3efforts

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

Créer de l'IA avec l'IA

HyperAI Newsletters

undefined

Ensemble De Données d'instructions Pour Les Tâches Créatives Des Professionnels Créatifs

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

Ensemble De Données d'inférence Multitâche TxT360-3efforts

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

undefined

Ensemble De Données d'instructions Pour Les Tâches Créatives Des Professionnels Créatifs

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données MCIF Pour l'instruction Multimodale Interlingue De Suivi

Ensemble De Données d'inférence Multitâche TxT360-3efforts

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro