[Zusammenfassung Mathematischer Datensätze] Der Geniale Doktor Terence Tao Empfiehlt Datensätze Wärmstens! Enthält Code, Chinesische Wettbewerbsfragen, Vorwärts- Und Rückwärts-Frage-Antworten Usw.

Letzte Woche veröffentlichte der berühmte Mathematiker Terence Tao auf seinem persönlichen Blog eine Ressourcenliste mit dem Titel „AI for Math Resourses“, die all jenen helfen soll, die sich für den Einstieg in das Feld der Mathematik der künstlichen Intelligenz interessieren. Diese Liste wurde vom Seminar „Künstliche Intelligenz unterstütztes mathematisches Denken“ zusammengestellt. Das Seminar wurde gemeinsam von den National Academies of Sciences, Engineering und Medicine der Vereinigten Staaten organisiert und Terence Tao fungierte als Moderator des Seminars.
Dieses Listendokument ist noch nicht fertiggestellt und Tao und andere Forscher arbeiten noch daran. HyperAI hat einige Datensätze ausgewählt, die jeder herunterladen und verwenden kann.Darüber hinaus haben wir auch andere mathematische Datensätze zusammengefasst, um KI für Mathematik zu unterstützen.
1.OpenWebMath Webmathematik-Datensatz
Verlag:Universität Toronto, Universität Cambridge usw.
Veröffentlichungszeit:2023
Geschätzte Größe:44,21 GB
Downloadadresse:https://go.hyper.ai/erQGZ
OpenWebMath enthält die meisten hochwertigen mathematischen Texte aus dem Internet. Es wird aus mehr als 200 Milliarden HTML-Dateien auf Common Crawl gefiltert und extrahiert, was zu einem Satz von 6,3 Millionen Dokumenten mit insgesamt 14,7 Milliarden Token führt.
2.Ape210K Chinesische Mathematikaufgaben auf Grundschulniveau
Verlag:Yuanfudao AI Lab, Northwestern University
Veröffentlichungszeit:2020
Geschätzte Größe:78,43 MB
Downloadadresse:https://go.hyper.ai/SL5to
Ape210K ist ein umfangreicher und vorlagenreicher Datensatz mit mathematischen Textaufgaben, der 210.000 chinesische Mathematikaufgaben auf Grundschulniveau enthält, von denen jede die beste Antwort und die zur Erlangung der Antwort erforderliche Gleichung enthält.
3.Mathematischer Datensatz Proof-Pile-2
Verlag:Princeton Universität
Veröffentlichungszeit:2023
Geschätzte Größe:47,57 GB
Downloadadresse:https://go.hyper.ai/TXmiP
Proof-Pile-2 ist ein tokenisierter Datensatz mit 55 Milliarden mathematischen und wissenschaftlichen Dokumenten, einer Mischung aus wissenschaftlichen Arbeiten, mathematikbezogenen Webinhalten und mathematischem Code, aktueller Stand: April 2023.
4.Orca-Math-200K-Datensatz für mathematische Probleme
Verlag:Microsoft
Veröffentlichungszeit:2024
Geschätzte Größe:70,88 MB
Downloadadresse:https://go.hyper.ai/o4pMG
Orca-Math-200K ist ein hochwertiger Datensatz mit mathematischen Problemen, der von Microsoft erstellt wurde und etwa 200.000 Mathematikfragen für die Grundschule enthält. Alle Antworten in diesem Datensatz werden mit Azure GPT4-Turbo generiert.
Verlag:Mizar
Veröffentlichungszeit:2018
Downloadadresse:https://go.hyper.ai/I8pi6
Mizar ist eine mathematische Formalisierungsbibliothek, die auf der Mizar-Sprache basiert und über viele Jahre von vielen Autoren und Betreuern erstellt und modifiziert wurde. Bisher hat das Mizar-Sprachsystem eine riesige Mizar-Mathematical Library gebildet, die eine gute Grundlage für zukünftige Diskussionen über Mathematik und verwandte Themen gelegt hat.
6.Math23K-Datensatz zur Lösung mathematischer Textaufgaben
Verlag:Tencent AI Lab
Veröffentlichungszeit:2017
Geschätzte Größe:8,36 MB
Downloadadresse:https://go.hyper.ai/2YsRR
Math23K ist ein Datensatz zum Lösen mathematischer Textaufgaben, der 23.162 aus dem Internet gecrawlte chinesische Aufgaben enthält.
7. MathVista-Datensatz zum mathematischen Denken
Verlag:Microsoft, University of Washington
Veröffentlichungszeit:2023
Geschätzte Größe:1,61 GB
Downloadadresse:https://go.hyper.ai/GHNsf
MathVista ist ein umfassender Benchmark für mathematisches Denken in einer visuellen Umgebung. Es besteht aus drei neu erstellten Datensätzen, IQTest, FunctionQA und PaperQA, die verwendet werden können, um logisches Denken anhand von Jigsaw-Testgraphen, algebraisches Denken anhand von Funktionsgraphen und wissenschaftliches Denken anhand von Graphen akademischer Arbeiten zu bewerten.
8.MetaMathQA-Datensatz zum mathematischen Denken
Verlag:Huawei, Universität Cambridge
Veröffentlichungszeit:2023
Geschätzte Größe:84,34 MB
Downloadadresse:https://go.hyper.ai/Vy2iw
MetaMathQA ist ein umfassender, hochwertiger Datensatz zum mathematischen Denken, der aus 395.000 vorwärts-rückwärts gerichteten mathematischen Frage-Antwort-Paaren besteht, die von einem großen Sprachmodell generiert wurden.
9.AlgoPuzzleVQA Multimodaler algorithmischer Puzzle-Datensatz
Verlag:Universität für Technologie und Design Singapur
Veröffentlichungszeit:2024
Geschätzte Größe:157,85 MB
Downloadadresse:https://go.hyper.ai/mmzdn
Der Datensatz enthält 18 verschiedene Rätsel zu unterschiedlichen mathematischen und algorithmischen Themen wie Boolesche Logik, Kombinatorik, Graphentheorie, Optimierung, Suche usw. Der Datensatz generiert automatisch Rätsel aus von Menschen geschriebenem Code und stellt so sicher, dass der Datensatz hinsichtlich Inferenzkomplexität und Datensatzgröße beliebig skaliert werden kann.
10.TAL-SCQ5K-Datensatz zum chinesischen Mathematikwettbewerb
Verlag:Gute Zukunft
Veröffentlichungszeit:2023
Geschätzte Größe:11,4 MB
Downloadadresse:https://go.hyper.ai/ZuYTB
TAL-SCQ5K ist ein Satz hochwertiger Datensätze zu chinesischen Mathematikwettbewerben, darunter 5.000 Fragen zu chinesischen Mathematikwettbewerben (3.000 zum Training und 2.000 zum Testen), verfügbar auf Chinesisch und Englisch.
Oben sind die 10 von HyperAI zusammengestellten Datensätze zur mathematischen Klassifizierung. Wenn Sie über Ressourcen verfügen, die Sie auf der offiziellen Website von hyper.ai veröffentlichen möchten, können Sie uns gerne eine Nachricht hinterlassen oder einen Artikel einreichen!
Lesen Sie den Originalartikel, um weitere Datensätze zu erhalten.
Über HyperAI
HyperAI (hyper.ai) ist eine führende Community für künstliche Intelligenz und Hochleistungsrechnen in China.Wir haben uns zum Ziel gesetzt, die Infrastruktur im Bereich der Datenwissenschaft in China zu werden und inländischen Entwicklern umfangreiche und qualitativ hochwertige öffentliche Ressourcen bereitzustellen. Bisher haben wir:
* Bereitstellung von inländischen beschleunigten Download-Knoten für über 1200 öffentliche Datensätze
* Enthält über 300 klassische und beliebte Online-Tutorials
* Interpretation von über 100 AI4Science-Papierfällen
* Unterstützt die Suche nach über 500 verwandten Begriffen
* Hosting der ersten vollständigen chinesischen Apache TVM-Dokumentation in China
Besuchen Sie die offizielle Website, um Ihre Lernreise zu beginnen: