[Résumé Des Ensembles De Données Mathématiques] Le Docteur De Génie Terence Tao Recommande Vivement Les Ensembles De Données ! Contient Du Code, Des Questions De Compétition Chinoises, Des Réponses Aux Questions Avant Et Arrière, Etc.

La semaine dernière, le célèbre mathématicien Terence Tao a publié une liste de ressources intitulée « AI for Math Resourses » sur son blog personnel, visant à aider ceux qui souhaitent entrer dans le domaine des mathématiques de l'intelligence artificielle. Cette liste a été compilée par le séminaire « Raisonnement mathématique assisté par l'intelligence artificielle ». Le séminaire a été organisé conjointement par les Académies nationales des sciences, de l'ingénierie et de la médecine des États-Unis, et Terence Tao a servi de modérateur du séminaire.
Ce document de liste n’a pas encore été finalisé et Tao et d’autres chercheurs y travaillent encore. HyperAI a sélectionné quelques ensembles de données que tout le monde peut télécharger et utiliser.De plus, nous avons également résumé d’autres ensembles de données mathématiques pour aider l’IA pour les mathématiques.
1.Ensemble de données mathématiques Web OpenWebMath
Agence d'édition :Université de Toronto, Université de Cambridge, etc.
Heure de sortie :2023
Taille estimée :44,21 Go
Adresse de téléchargement :https://go.hyper.ai/erQGZ
OpenWebMath contient la plupart des textes mathématiques de haute qualité provenant d'Internet. Il est filtré et extrait de plus de 200 milliards de fichiers HTML sur Common Crawl, ce qui donne un ensemble de 6,3 millions de documents contenant un total de 14,7 milliards de jetons.
2.Problèmes de mathématiques Ape210K de niveau primaire chinois
Agence d'édition :Laboratoire d'IA Yuanfudao, Université Northwestern
Heure de sortie :2020
Taille estimée :78,43 Mo
Adresse de téléchargement :https://go.hyper.ai/SL5to
Ape210K est un ensemble de données de problèmes mathématiques à grande échelle et riche en modèles contenant 210 000 problèmes mathématiques de niveau primaire chinois, chacun comprenant la meilleure réponse et l'équation requise pour obtenir la réponse.
3.Ensemble de données mathématiques Proof-Pile-2
Agence d'édition :Université de Princeton
Heure de sortie :2023
Taille estimée :47,57 Go
Adresse de téléchargement :https://go.hyper.ai/TXmiP
Proof-Pile-2 est un ensemble de données tokenisé de 55 milliards de documents mathématiques et scientifiques, un mélange d'articles scientifiques, de contenu Web lié aux mathématiques et de code mathématique, mis à jour en avril 2023.
4.Ensemble de données de problèmes mathématiques Orca-Math-200K
Agence d'édition :Microsoft
Heure de sortie :2024
Taille estimée :70,88 Mo
Adresse de téléchargement :https://go.hyper.ai/o4pMG
Orca-Math-200K est un ensemble de données de problèmes mathématiques de haute qualité créé par Microsoft, contenant environ 200 000 questions de mathématiques pour l'école primaire. Toutes les réponses de cet ensemble de données sont générées à l’aide d’Azure GPT4-Turbo.
5.Ensemble de données mathématiques Mizar
Agence d'édition :Mizar
Heure de sortie :2018
Adresse de téléchargement :https://go.hyper.ai/I8pi6
Mizar est une bibliothèque de formalisation mathématique basée sur le langage Mizar, qui a été créée et modifiée au fil des années par de nombreux auteurs et mainteneurs. Jusqu’à présent, le système linguistique Mizar a constitué une immense bibliothèque mathématique Mizar, qui a posé de bonnes bases pour les discussions futures sur les mathématiques et les questions connexes.
6.Ensemble de données de résolution de problèmes mathématiques Math23K
Agence d'édition :Laboratoire d'IA Tencent
Heure de sortie :2017
Taille estimée :8,36 Mo
Adresse de téléchargement :https://go.hyper.ai/2YsRR
Math23K est un ensemble de données créé pour résoudre des problèmes de mots mathématiques, contenant 23 162 problèmes chinois extraits d'Internet.
7. Ensemble de données de raisonnement mathématique MathVista
Agence d'édition :Microsoft, Université de Washington
Heure de sortie :2023
Taille estimée :1,61 Go
Adresse de téléchargement :https://go.hyper.ai/GHNsf
MathVista est une référence complète de raisonnement mathématique dans un environnement visuel. Il se compose de trois ensembles de données nouvellement créés, IQTest, FunctionQA et PaperQA, qui peuvent être utilisés pour évaluer respectivement le raisonnement logique sur des graphiques de test de puzzle, le raisonnement algébrique sur des graphiques de fonctions et le raisonnement scientifique sur des graphiques de documents académiques.
8.Ensemble de données de raisonnement mathématique MetaMathQA
Agence d'édition :Huawei, Université de Cambridge
Heure de sortie :2023
Taille estimée :84,34 Mo
Adresse de téléchargement :https://go.hyper.ai/Vy2iw
MetaMathQA est un ensemble de données de raisonnement mathématique de grande qualité et à large couverture, composé de 395 000 paires de questions-réponses mathématiques avant-arrière générées par un grand modèle de langage.
9.Ensemble de données de puzzle algorithmique multimodal AlgoPuzzleVQA
Agence d'édition :Université de technologie et de design de Singapour
Heure de sortie :2024
Taille estimée :157,85 Mo
Adresse de téléchargement :https://go.hyper.ai/mmzdn
L'ensemble de données contient 18 puzzles différents couvrant divers sujets mathématiques et algorithmiques tels que la logique booléenne, la combinatoire, la théorie des graphes, l'optimisation, la recherche, etc. L'ensemble de données génère des puzzles à partir de code écrit par l'homme de manière automatisée, garantissant que l'ensemble de données peut évoluer arbitrairement en termes de complexité d'inférence et de taille de l'ensemble de données.
10.Ensemble de données du concours de mathématiques chinois TAL-SCQ5K
Agence d'édition :Bon avenir
Heure de sortie :2023
Taille estimée :11,4 Mo
Adresse de téléchargement :https://go.hyper.ai/ZuYTB
TAL-SCQ5K est un ensemble de données de compétition de mathématiques chinoises de haute qualité, comprenant 5 000 questions de compétition de mathématiques chinoises (3 000 pour la formation et 2 000 pour les tests), disponibles en chinois et en anglais.
Les éléments ci-dessus sont les 10 ensembles de données de classification mathématique compilés par HyperAI. Si vous avez des ressources que vous souhaitez inclure sur le site officiel hyper.ai, n'hésitez pas à laisser un message ou à soumettre un article pour nous le dire !
Lisez l’article original pour obtenir plus d’ensembles de données.
À propos d'HyperAI
HyperAI (hyper.ai) est une communauté leader en matière d'intelligence artificielle et de calcul haute performance en Chine.Nous nous engageons à devenir l'infrastructure dans le domaine de la science des données en Chine et à fournir des ressources publiques riches et de haute qualité aux développeurs nationaux. Jusqu'à présent, nous avons :
* Fournir des nœuds de téléchargement accélérés nationaux pour plus de 1 200 ensembles de données publiques
* Comprend plus de 300 tutoriels en ligne classiques et populaires
* Interprétation de plus de 100 cas d'articles AI4Science
* Prise en charge de plus de 500 termes de recherche associés
* Hébergement de la première documentation complète d'Apache TVM en Chine
Visitez le site Web officiel pour commencer votre parcours d'apprentissage :