HyperAI

[Zusammenfassung Mathematischer Datensätze] Der Geniale Doktor Terence Tao Empfiehlt Datensätze Wärmstens! Enthält Code, Chinesische Wettbewerbsfragen, Vorwärts- Und Rückwärts-Frage-Antworten Usw.

vor einem Jahr
Information
zhaorui
特色图像

Letzte Woche veröffentlichte der berühmte Mathematiker Terence Tao auf seinem persönlichen Blog eine Ressourcenliste mit dem Titel „AI for Math Resourses“, die all jenen helfen soll, die sich für den Einstieg in das Feld der Mathematik der künstlichen Intelligenz interessieren. Diese Liste wurde vom Seminar „Künstliche Intelligenz unterstütztes mathematisches Denken“ zusammengestellt. Das Seminar wurde gemeinsam von den National Academies of Sciences, Engineering und Medicine der Vereinigten Staaten organisiert und Terence Tao fungierte als Moderator des Seminars.

Dieses Listendokument ist noch nicht fertiggestellt und Tao und andere Forscher arbeiten noch daran. HyperAI hat einige Datensätze ausgewählt, die jeder herunterladen und verwenden kann.Darüber hinaus haben wir auch andere mathematische Datensätze zusammengefasst, um KI für Mathematik zu unterstützen.

1.OpenWebMath Webmathematik-Datensatz

Verlag:Universität Toronto, Universität Cambridge usw.

Veröffentlichungszeit:2023

Geschätzte Größe:44,21 GB

Downloadadresse:https://go.hyper.ai/erQGZ

OpenWebMath enthält die meisten hochwertigen mathematischen Texte aus dem Internet. Es wird aus mehr als 200 Milliarden HTML-Dateien auf Common Crawl gefiltert und extrahiert, was zu einem Satz von 6,3 Millionen Dokumenten mit insgesamt 14,7 Milliarden Token führt.

2.Ape210K Chinesische Mathematikaufgaben auf Grundschulniveau

Verlag:Yuanfudao AI Lab, Northwestern University

Veröffentlichungszeit:2020

Geschätzte Größe:78,43 MB

Downloadadresse:https://go.hyper.ai/SL5to

Ape210K ist ein umfangreicher und vorlagenreicher Datensatz mit mathematischen Textaufgaben, der 210.000 chinesische Mathematikaufgaben auf Grundschulniveau enthält, von denen jede die beste Antwort und die zur Erlangung der Antwort erforderliche Gleichung enthält.

3.Mathematischer Datensatz Proof-Pile-2

Verlag:Princeton Universität

Veröffentlichungszeit:2023

Geschätzte Größe:47,57 GB

Downloadadresse:https://go.hyper.ai/TXmiP

Proof-Pile-2 ist ein tokenisierter Datensatz mit 55 Milliarden mathematischen und wissenschaftlichen Dokumenten, einer Mischung aus wissenschaftlichen Arbeiten, mathematikbezogenen Webinhalten und mathematischem Code, aktueller Stand: April 2023.

4.Orca-Math-200K-Datensatz für mathematische Probleme

Verlag:Microsoft

Veröffentlichungszeit:2024

Geschätzte Größe:70,88 MB

Downloadadresse:https://go.hyper.ai/o4pMG

Orca-Math-200K ist ein hochwertiger Datensatz mit mathematischen Problemen, der von Microsoft erstellt wurde und etwa 200.000 Mathematikfragen für die Grundschule enthält. Alle Antworten in diesem Datensatz werden mit Azure GPT4-Turbo generiert.

5.Mizar-Mathematik-Datensatz

Verlag:Mizar 

Veröffentlichungszeit:2018

Downloadadresse:https://go.hyper.ai/I8pi6

Mizar ist eine mathematische Formalisierungsbibliothek, die auf der Mizar-Sprache basiert und über viele Jahre von vielen Autoren und Betreuern erstellt und modifiziert wurde. Bisher hat das Mizar-Sprachsystem eine riesige Mizar-Mathematical Library gebildet, die eine gute Grundlage für zukünftige Diskussionen über Mathematik und verwandte Themen gelegt hat.

6.Math23K-Datensatz zur Lösung mathematischer Textaufgaben

Verlag:Tencent AI Lab 

Veröffentlichungszeit:2017

Geschätzte Größe:8,36 MB

Downloadadresse:https://go.hyper.ai/2YsRR

Math23K ist ein Datensatz zum Lösen mathematischer Textaufgaben, der 23.162 aus dem Internet gecrawlte chinesische Aufgaben enthält.

7. MathVista-Datensatz zum mathematischen Denken

Verlag:Microsoft, University of Washington

Veröffentlichungszeit:2023

Geschätzte Größe:1,61 GB

Downloadadresse:https://go.hyper.ai/GHNsf

MathVista ist ein umfassender Benchmark für mathematisches Denken in einer visuellen Umgebung. Es besteht aus drei neu erstellten Datensätzen, IQTest, FunctionQA und PaperQA, die verwendet werden können, um logisches Denken anhand von Jigsaw-Testgraphen, algebraisches Denken anhand von Funktionsgraphen und wissenschaftliches Denken anhand von Graphen akademischer Arbeiten zu bewerten.

8.MetaMathQA-Datensatz zum mathematischen Denken

Verlag:Huawei, Universität Cambridge

Veröffentlichungszeit:2023

Geschätzte Größe:84,34 MB

Downloadadresse:https://go.hyper.ai/Vy2iw

MetaMathQA ist ein umfassender, hochwertiger Datensatz zum mathematischen Denken, der aus 395.000 vorwärts-rückwärts gerichteten mathematischen Frage-Antwort-Paaren besteht, die von einem großen Sprachmodell generiert wurden.

9.AlgoPuzzleVQA Multimodaler algorithmischer Puzzle-Datensatz

Verlag:Universität für Technologie und Design Singapur

Veröffentlichungszeit:2024

Geschätzte Größe:157,85 MB

Downloadadresse:https://go.hyper.ai/mmzdn

Der Datensatz enthält 18 verschiedene Rätsel zu unterschiedlichen mathematischen und algorithmischen Themen wie Boolesche Logik, Kombinatorik, Graphentheorie, Optimierung, Suche usw. Der Datensatz generiert automatisch Rätsel aus von Menschen geschriebenem Code und stellt so sicher, dass der Datensatz hinsichtlich Inferenzkomplexität und Datensatzgröße beliebig skaliert werden kann.

10.TAL-SCQ5K-Datensatz zum chinesischen Mathematikwettbewerb

Verlag:Gute Zukunft

Veröffentlichungszeit:2023

Geschätzte Größe:11,4 MB

Downloadadresse:https://go.hyper.ai/ZuYTB

TAL-SCQ5K ist ein Satz hochwertiger Datensätze zu chinesischen Mathematikwettbewerben, darunter 5.000 Fragen zu chinesischen Mathematikwettbewerben (3.000 zum Training und 2.000 zum Testen), verfügbar auf Chinesisch und Englisch.

Oben sind die 10 von HyperAI zusammengestellten Datensätze zur mathematischen Klassifizierung. Wenn Sie über Ressourcen verfügen, die Sie auf der offiziellen Website von hyper.ai veröffentlichen möchten, können Sie uns gerne eine Nachricht hinterlassen oder einen Artikel einreichen!

Lesen Sie den Originalartikel, um weitere Datensätze zu erhalten.

Über HyperAI

HyperAI (hyper.ai) ist eine führende Community für künstliche Intelligenz und Hochleistungsrechnen in China.Wir haben uns zum Ziel gesetzt, die Infrastruktur im Bereich der Datenwissenschaft in China zu werden und inländischen Entwicklern umfangreiche und qualitativ hochwertige öffentliche Ressourcen bereitzustellen. Bisher haben wir:

* Bereitstellung von inländischen beschleunigten Download-Knoten für über 1200 öffentliche Datensätze

* Enthält über 300 klassische und beliebte Online-Tutorials

* Interpretation von über 100 AI4Science-Papierfällen

* Unterstützt die Suche nach über 500 verwandten Begriffen

* Hosting der ersten vollständigen chinesischen Apache TVM-Dokumentation in China

Besuchen Sie die offizielle Website, um Ihre Lernreise zu beginnen:

https://hyper.ai