HyperAI초신경

[수학적 데이터세트 요약] 천재 의사 테렌스 타오가 데이터세트를 강력 추천합니다! 코드, 중국어 경연대회 문제, 정방향 및 역방향 질의응답 등이 포함되어 있습니다.

일 년 전
정보
zhaorui
特色图像

지난주, 유명 수학자 테렌스 타오는 자신의 개인 블로그에 "수학 리소스를 위한 AI"라는 리소스 목록을 게시했는데, 이는 인공지능 수학 분야에 진출하고 싶은 사람들을 돕고자 하는 것이었습니다. 이 목록은 "인공지능을 활용한 수학적 추론" 세미나에서 작성되었습니다. 이 세미나는 미국 국립 과학 아카데미, 공학 아카데미, 의학 아카데미가 공동으로 주최했으며, 테렌스 타오가 세미나의 사회를 맡았습니다.

이 목록 문서는 아직 완성되지 않았으며, 타오와 다른 연구자들은 여전히 작업 중입니다. HyperAI는 모든 사람이 다운로드하여 사용할 수 있도록 일부 데이터 세트를 선정했습니다.또한, AI가 수학을 수행하는 데 도움이 되도록 다른 수학 데이터 세트도 요약했습니다.

1.OpenWebMath 웹 수학 데이터 세트

출판사:토론토대학교, 케임브리지대학교 등

출시 시간:2023

예상 크기:44.21GB

다운로드 주소:https://go.hyper.ai/erQGZ

OpenWebMath에는 인터넷에 있는 대부분의 고품질 수학 텍스트가 포함되어 있습니다. 이는 Common Crawl에서 2000억 개가 넘는 HTML 파일에서 필터링 및 추출되어 총 147억 개의 토큰을 포함하는 630만 개의 문서 세트가 생성됩니다.

2.Ape210K 중국 초등학교 수준 수학 문제

출판사:노스웨스턴 대학교 원푸다오 AI 연구실

출시 시간:2020

예상 크기:78.43MB

다운로드 주소:https://go.hyper.ai/SL5to

Ape210K는 210,000개의 중국 초등학교 수준의 수학 문제를 담고 있는 대규모의 템플릿이 풍부한 수학 단어 문제 데이터 세트로, 각 문제에는 최적 답과 답을 구하는 데 필요한 방정식이 포함되어 있습니다.

3.Proof-Pile-2 수학 데이터 세트

출판사:프린스턴 대학교

출시 시간:2023

예상 크기:47.57GB

다운로드 주소:https://go.hyper.ai/TXmiP

Proof-Pile-2는 2023년 4월 기준 과학 논문, 수학 관련 웹 콘텐츠, 수학 코드 등 550억 개의 수학 및 과학 문서로 구성된 토큰화된 데이터 세트입니다.

4.Orca-Math-200K 수학 문제 데이터 세트

출판사:마이크로소프트

출시 시간:2024

예상 크기:70.88MB

다운로드 주소:https://go.hyper.ai/o4pMG

Orca-Math-200K는 Microsoft에서 만든 고품질 수학 문제 데이터 세트로, 약 20만 개의 초등학교 수학 문제가 포함되어 있습니다. 이 데이터 세트의 모든 답변은 Azure GPT4-Turbo를 사용하여 생성되었습니다.

5.미자르 수학 데이터 세트

출판사:미자르 

출시 시간:2018

다운로드 주소:https://go.hyper.ai/I8pi6

Mizar는 Mizar 언어를 기반으로 한 수학적 형식화 라이브러리로, 수년에 걸쳐 많은 작성자와 유지 관리자에 의해 만들어지고 수정되었습니다. 지금까지 미자르 언어 시스템은 거대한 미자르 수학 라이브러리를 형성했으며, 이는 향후 수학과 관련 문제에 대한 논의를 위한 좋은 토대를 마련했습니다.

6.Math23K 수학 단어 문제 풀이 데이터 세트

출판사:텐센트 AI 랩 

출시 시간:2017

예상 크기:8.36MB

다운로드 주소:https://go.hyper.ai/2YsRR

Math23K는 인터넷에서 크롤링한 23,162개의 중국어 문제를 포함하고 있으며, 수학 단어 문제를 풀기 위해 만들어진 데이터 세트입니다.

7. MathVista 수학적 추론 데이터 세트

출판사:마이크로소프트, 워싱턴 대학교

출시 시간:2023

예상 크기:1.61GB

다운로드 주소:https://go.hyper.ai/GHNsf

MathVista는 시각적 환경에서 제공되는 포괄적인 수학적 추론 벤치마크입니다. 이 테스트는 IQTest, FunctionQA, PaperQA의 세 가지 새로 생성된 데이터 세트로 구성되어 있으며, 각각 퍼즐 테스트 그래프에 대한 논리적 추론, 함수 그래프에 대한 대수적 추론, 학술 논문 그래프에 대한 과학적 추론을 평가하는 데 사용할 수 있습니다.

8.MetaMathQA 수학적 추론 데이터 세트

출판사:화웨이, 케임브리지 대학교

출시 시간:2023

예상 크기:84.34MB

다운로드 주소:https://go.hyper.ai/Vy2iw

MetaMathQA는 대규모 언어 모델에 의해 생성된 395,000개의 순방향-역방향 수학적 질문-답변 쌍으로 구성된 광범위한 범위의 고품질 수학적 추론 데이터 세트입니다.

9.AlgoPuzzleVQA 다중 모드 알고리즘 퍼즐 데이터 세트

출판사:싱가포르 기술 및 디자인 대학교

출시 시간:2024

예상 크기:157.85MB

다운로드 주소:https://go.hyper.ai/mmzdn

이 데이터 세트에는 부울 논리, 조합론, 그래프 이론, 최적화, 검색 등 다양한 수학 및 알고리즘 주제를 다루는 18개의 퍼즐이 포함되어 있습니다. 이 데이터 세트는 인간이 작성한 코드에서 자동화된 방식으로 퍼즐을 생성하므로 추론 복잡성과 데이터 세트 크기 측면에서 데이터 세트를 임의로 확장할 수 있습니다.

10.TAL-SCQ5K 중국 수학 경시대회 데이터 세트

출판사:좋은 미래

출시 시간:2023

예상 크기:11.4MB

다운로드 주소:https://go.hyper.ai/ZuYTB

TAL-SCQ5K는 5,000개의 중국어 수학 경시대회 문제(훈련용 3,000개, 테스트용 2,000개)를 포함한 고품질 중국 수학 경시대회 데이터 세트로, 중국어와 영어로 제공됩니다.

위에 나열된 내용은 HyperAI가 수집한 10개의 수학적 분류 데이터 세트입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!

더 많은 데이터 세트를 얻으려면 원본 기사를 읽어보세요.

HyperAI 소개

HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.

* 1200개 이상의 공개 데이터 세트에 대한 국내 가속 다운로드 노드 제공

* 300개 이상의 고전적이고 인기 있는 온라인 튜토리얼이 포함되어 있습니다.

* 100개 이상의 AI4Science 논문 사례 해석

* 500개 이상의 관련 용어 검색 지원

* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅

학습 여정을 시작하려면 공식 웹사이트를 방문하세요.

https://hyper.ai