先週、有名な数学者のテレンス・タオ氏は、人工知能数学の分野への参入に興味がある人々を支援することを目的として、「数学リソースのための AI」のリソースリストを公開しました。このリストは、「人工知能支援数学的推論」によって調査されたものです。整理してみます。このシンポジウムは米国科学・工学・医学アカデミーとの共催で、テレンス・タオ氏がシンポジウムの司会を務めた。
このリスト文書はまだ完成しておらず、Tao Zhexuan と他の研究者がまだ改良中です。 HyperAI Super Neural は、誰もがダウンロードして使用できるいくつかのデータ セットを選択しました。さらに、他の数学データセットも補足され、AI for Math を支援するためにすべての人のために要約されています。
発行機関:トロント大学、ケンブリッジ大学など
発売時期:2023年
推定サイズ:44.21GB
ダウンロードアドレス:https://go.hyper.ai/erQGZ
OpenWebMath には、インターネットからの最も高品質な数学テキストが含まれています。これは、Common Crawl 上の 200B を超える HTML ファイルからフィルタリングおよび抽出され、合計 147 億のトークンを含む 630 万のドキュメントのセットが生成されます。
発行機関:西北大学袁福道AI研究室
発売時期:2020年
推定サイズ:78.43MB
ダウンロードアドレス:https://go.hyper.ai/SL5to
Ape210K は、テンプレートが豊富な大規模な数学文章題データセットで、210,000 個の中国の小学校レベルの数学問題が含まれており、各質問には最良の答えと、答えを導き出すために必要な方程式が含まれています。
発行機関:プリンストン大学
発売時期:2023年
推定サイズ:47.57GB
ダウンロードアドレス:https://go.hyper.ai/TXmiP
Proof-Pile-2 は、科学論文、数学関連の Web コンテンツ、数学コードを統合した 550 億件の数学および科学文書を含むトークン データ セットです。その知識は 2023 年 4 月時点のものです。
発行機関:マイクロソフト
発売時期:2024年
推定サイズ:70.88MB
ダウンロードアドレス:https://go.hyper.ai/o4pMG
Orca-Math-200K は、Microsoft によって作成された高品質の数学の質問データ セットで、約 200,000 の小学校の数学の質問が含まれています。このデータ セット内のすべての答えは、Azure GPT4-Turbo を使用して生成されています。
発行機関:ミザール
発売時期:2018年
ダウンロードアドレス:https://go.hyper.ai/I8pi6
Mizar は、Mizar 言語に基づく数学的形式化ライブラリであり、長年にわたって多くの作成者や保守者によって作成および変更されてきました。これまでのところ、ミザール言語システムは巨大なミザール数学ライブラリを形成しており、数学と関連問題の将来の議論のための良い基盤を築いてきました。
発行機関:テンセントAIラボ
発売時期:2017年
推定サイズ:8.36MB
ダウンロードアドレス:https://go.hyper.ai/2YsRR
Math23K は数学の文章題を解くために作成されたデータセットで、インターネットからクロールされた 23,162 個の中国語の質問が含まれています。
発行機関:マイクロソフト、ワシントン大学
発売時期:2023年
推定サイズ:1.61GB
ダウンロードアドレス:https://go.hyper.ai/GHNsf
MathVista は、ビジュアル環境における包括的な数学的推論ベンチマークです。これは、新しく作成された 3 つのデータセット IQTest、FunctionQA、PaperQA で構成されており、それぞれパズル テスト グラフの論理的推論、関数グラフの代数的推論、学術論文グラフの科学的推論を評価するために使用できます。
発行機関:ファーウェイ、ケンブリッジ大学
発売時期:2023年
推定サイズ:84.34MB
ダウンロードアドレス:https://go.hyper.ai/Vy2iw
MetaMathQA は、広い範囲と高品質を備えた数学的推論データ セットで、大規模な言語モデルによって生成された 395,000 個の順方向および逆方向の数学的な質問と回答のペアで構成されています。
9.AlgoPuzzleVQA マルチモーダル アルゴリズム パズル データセット
発行機関:シンガポール工科デザイン大学
発売時期:2024年
推定サイズ:157.85MB
ダウンロードアドレス:https://go.hyper.ai/mmzdn
このデータセットには、ブール論理、組み合わせ論、グラフ理論、最適化、検索など、さまざまな数学およびアルゴリズムのトピックをカバーする 18 種類のパズルが含まれています。データセットは、人が書いたコードから自動化された方法でパズルを生成し、推論の複雑さとデータセットのサイズを任意にスケールできるようにデータセットを拡張します。
発行機関:良い未来
発売時期:2023年
推定サイズ:11.4MB
ダウンロードアドレス:https://go.hyper.ai/ZuYTB
TAL-SCQ5K は、中国語と英語で利用可能な 5K の中国語数学コンテストの問題 (トレーニング用 3K、テスト用 2K) を含む、高品質の中国語数学コンテスト データ セットのセットです。
上記は、HyperAI Super Neural があなたのために編集した 10 個の数学的分類データ セットです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、メッセージを残すか、投稿してお知らせください。
その他のデータセットについては、元の記事をお読みください。
HyperAIについて Hyper.ai
HyperAI(hyper.ai)は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。
* 1,200 を超える公開データセットに対して国内の高速ダウンロード ノードを提供
* 300 以上の古典的で人気のあるオンライン チュートリアルが含まれています
* 100 以上の AI4Science 論文ケースを解釈
* 500 以上の関連用語クエリをサポート
*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします
学習の旅を始めるには、公式 Web サイトにアクセスしてください。