【数学データセットまとめ】天才テレンス・タオ博士が激推しするデータセット!コード、中国語コンテストの質問、順方向および逆方向の Q&A などが含まれています。

8 个月前

情報

zhaorui

特色图像

先週、有名な数学者のテレンス・タオ氏は、人工知能数学の分野への参入に興味がある人々を支援することを目的として、「数学リソースのための AI」のリソースリストを公開しました。このリストは、「人工知能支援数学的推論」によって調査されたものです。整理してみます。このシンポジウムは米国科学・工学・医学アカデミーとの共催で、テレンス・タオ氏がシンポジウムの司会を務めた。

このリスト文書はまだ完成しておらず、Tao Zhexuan と他の研究者がまだ改良中です。 HyperAI Super Neural は、誰もがダウンロードして使用できるいくつかのデータ セットを選択しました。さらに、他の数学データセットも補足され、AI for Math を支援するためにすべての人のために要約されています。

1.OpenWebMath Web 数学データ セット

発行機関:トロント大学、ケンブリッジ大学など

発売時期:2023年

推定サイズ:44.21GB

ダウンロードアドレス:https://go.hyper.ai/erQGZ

OpenWebMath には、インターネットからの最も高品質な数学テキストが含まれています。これは、Common Crawl 上の 200B を超える HTML ファイルからフィルタリングおよび抽出され、合計 147 億のトークンを含む 630 万のドキュメントのセットが生成されます。

2.Ape210K 中国の小学生レベルの算数問題

発行機関:西北大学袁福道AI研究室

発売時期:2020年

推定サイズ:78.43MB

ダウンロードアドレス:https://go.hyper.ai/SL5to

Ape210K は、テンプレートが豊富な大規模な数学文章題データセットで、210,000 個の中国の小学校レベルの数学問題が含まれており、各質問には最良の答えと、答えを導き出すために必要な方程式が含まれています。

3.Proof-Pile-2 数学データセット

発行機関:プリンストン大学

発売時期:2023年

推定サイズ:47.57GB

ダウンロードアドレス:https://go.hyper.ai/TXmiP

Proof-Pile-2 は、科学論文、数学関連の Web コンテンツ、数学コードを統合した 550 億件の数学および科学文書を含むトークン データ セットです。その知識は 2023 年 4 月時点のものです。

4.Orca-Math-200K 数学問題データ セット

発行機関:マイクロソフト

発売時期:2024年

推定サイズ:70.88MB

ダウンロードアドレス:https://go.hyper.ai/o4pMG

Orca-Math-200K は、Microsoft によって作成された高品質の数学の質問データ セットで、約 200,000 の小学校の数学の質問が含まれています。このデータ セット内のすべての答えは、Azure GPT4-Turbo を使用して生成されています。

5.ミザール数学データセット

発行機関:ミザール 

発売時期:2018年

ダウンロードアドレス:https://go.hyper.ai/I8pi6

Mizar は、Mizar 言語に基づく数学的形式化ライブラリであり、長年にわたって多くの作成者や保守者によって作成および変更されてきました。これまでのところ、ミザール言語システムは巨大なミザール数学ライブラリを形成しており、数学と関連問題の将来の議論のための良い基盤を築いてきました。

6.Math23K 数学の文章問題を解くデータセット

発行機関:テンセントAIラボ 

発売時期:2017年

推定サイズ:8.36MB

ダウンロードアドレス:https://go.hyper.ai/2YsRR

Math23K は数学の文章題を解くために作成されたデータセットで、インターネットからクロールされた 23,162 個の中国語の質問が含まれています。

7.MathVista 数的推論データセット

発行機関:マイクロソフト、ワシントン大学

発売時期:2023年

推定サイズ:1.61GB

ダウンロードアドレス:https://go.hyper.ai/GHNsf

MathVista は、ビジュアル環境における包括的な数学的推論ベンチマークです。これは、新しく作成された 3 つのデータセット IQTest、FunctionQA、PaperQA で構成されており、それぞれパズル テスト グラフの論理的推論、関数グラフの代数的推論、学術論文グラフの科学的推論を評価するために使用できます。

8.MetaMathQA 数学的推論データセット

発行機関:ファーウェイ、ケンブリッジ大学

発売時期:2023年

推定サイズ:84.34MB

ダウンロードアドレス:https://go.hyper.ai/Vy2iw

MetaMathQA は、広い範囲と高品質を備えた数学的推論データ セットで、大規模な言語モデルによって生成された 395,000 個の順方向および逆方向の数学的な質問と回答のペアで構成されています。

9.AlgoPuzzleVQA マルチモーダル アルゴリズム パズル データセット

発行機関:シンガポール工科デザイン大学

発売時期:2024年

推定サイズ:157.85MB

ダウンロードアドレス:https://go.hyper.ai/mmzdn

このデータセットには、ブール論理、組み合わせ論、グラフ理論、最適化、検索など、さまざまな数学およびアルゴリズムのトピックをカバーする 18 種類のパズルが含まれています。データセットは、人が書いたコードから自動化された方法でパズルを生成し、推論の複雑さとデータセットのサイズを任意にスケールできるようにデータセットを拡張します。

10.TAL-SCQ5K 中国数学コンテスト データセット

発行機関:良い未来

発売時期:2023年

推定サイズ:11.4MB

ダウンロードアドレス:https://go.hyper.ai/ZuYTB

TAL-SCQ5K は、中国語と英語で利用可能な 5K の中国語数学コンテストの問題 (トレーニング用 3K、テスト用 2K) を含む、高品質の中国語数学コンテスト データ セットのセットです。

上記は、HyperAI Super Neural があなたのために編集した 10 個の数学的分類データ セットです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、メッセージを残すか、投稿してお知らせください。

その他のデータセットについては、元の記事をお読みください。

HyperAIについて Hyper.ai

HyperAI(hyper.ai)は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。

* 1,200 を超える公開データセットに対して国内の高速ダウンロード ノードを提供

* 300 以上の古典的で人気のあるオンライン チュートリアルが含まれています

* 100 以上の AI4Science 論文ケースを解釈

* 500 以上の関連用語クエリをサポート

*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします

学習の旅を始めるには、公式 Web サイトにアクセスしてください。

https://hyper.ai