[수학적 데이터세트 요약] 천재 의사 테렌스 타오가 데이터세트를 강력 추천합니다! 코드, 중국어 경연대회 문제, 정방향 및 역방향 질의응답 등이 포함되어 있습니다.

지난주, 유명 수학자 테렌스 타오는 자신의 개인 블로그에 "수학 리소스를 위한 AI"라는 리소스 목록을 게시했는데, 이는 인공지능 수학 분야에 진출하고 싶은 사람들을 돕고자 하는 것이었습니다. 이 목록은 "인공지능을 활용한 수학적 추론" 세미나에서 작성되었습니다. 이 세미나는 미국 국립 과학 아카데미, 공학 아카데미, 의학 아카데미가 공동으로 주최했으며, 테렌스 타오가 세미나의 사회를 맡았습니다.
이 목록 문서는 아직 완성되지 않았으며, 타오와 다른 연구자들은 여전히 작업 중입니다. HyperAI는 모든 사람이 다운로드하여 사용할 수 있도록 일부 데이터 세트를 선정했습니다.또한, AI가 수학을 수행하는 데 도움이 되도록 다른 수학 데이터 세트도 요약했습니다.
출판사:토론토대학교, 케임브리지대학교 등
출시 시간:2023
예상 크기:44.21GB
다운로드 주소:https://go.hyper.ai/erQGZ
OpenWebMath에는 인터넷에 있는 대부분의 고품질 수학 텍스트가 포함되어 있습니다. 이는 Common Crawl에서 2000억 개가 넘는 HTML 파일에서 필터링 및 추출되어 총 147억 개의 토큰을 포함하는 630만 개의 문서 세트가 생성됩니다.
출판사:노스웨스턴 대학교 원푸다오 AI 연구실
출시 시간:2020
예상 크기:78.43MB
다운로드 주소:https://go.hyper.ai/SL5to
Ape210K는 210,000개의 중국 초등학교 수준의 수학 문제를 담고 있는 대규모의 템플릿이 풍부한 수학 단어 문제 데이터 세트로, 각 문제에는 최적 답과 답을 구하는 데 필요한 방정식이 포함되어 있습니다.
출판사:프린스턴 대학교
출시 시간:2023
예상 크기:47.57GB
다운로드 주소:https://go.hyper.ai/TXmiP
Proof-Pile-2는 2023년 4월 기준 과학 논문, 수학 관련 웹 콘텐츠, 수학 코드 등 550억 개의 수학 및 과학 문서로 구성된 토큰화된 데이터 세트입니다.
출판사:마이크로소프트
출시 시간:2024
예상 크기:70.88MB
다운로드 주소:https://go.hyper.ai/o4pMG
Orca-Math-200K는 Microsoft에서 만든 고품질 수학 문제 데이터 세트로, 약 20만 개의 초등학교 수학 문제가 포함되어 있습니다. 이 데이터 세트의 모든 답변은 Azure GPT4-Turbo를 사용하여 생성되었습니다.
출판사:미자르
출시 시간:2018
다운로드 주소:https://go.hyper.ai/I8pi6
Mizar는 Mizar 언어를 기반으로 한 수학적 형식화 라이브러리로, 수년에 걸쳐 많은 작성자와 유지 관리자에 의해 만들어지고 수정되었습니다. 지금까지 미자르 언어 시스템은 거대한 미자르 수학 라이브러리를 형성했으며, 이는 향후 수학과 관련 문제에 대한 논의를 위한 좋은 토대를 마련했습니다.
출판사:텐센트 AI 랩
출시 시간:2017
예상 크기:8.36MB
다운로드 주소:https://go.hyper.ai/2YsRR
Math23K는 인터넷에서 크롤링한 23,162개의 중국어 문제를 포함하고 있으며, 수학 단어 문제를 풀기 위해 만들어진 데이터 세트입니다.
출판사:마이크로소프트, 워싱턴 대학교
출시 시간:2023
예상 크기:1.61GB
다운로드 주소:https://go.hyper.ai/GHNsf
MathVista는 시각적 환경에서 제공되는 포괄적인 수학적 추론 벤치마크입니다. 이 테스트는 IQTest, FunctionQA, PaperQA의 세 가지 새로 생성된 데이터 세트로 구성되어 있으며, 각각 퍼즐 테스트 그래프에 대한 논리적 추론, 함수 그래프에 대한 대수적 추론, 학술 논문 그래프에 대한 과학적 추론을 평가하는 데 사용할 수 있습니다.
출판사:화웨이, 케임브리지 대학교
출시 시간:2023
예상 크기:84.34MB
다운로드 주소:https://go.hyper.ai/Vy2iw
MetaMathQA는 대규모 언어 모델에 의해 생성된 395,000개의 순방향-역방향 수학적 질문-답변 쌍으로 구성된 광범위한 범위의 고품질 수학적 추론 데이터 세트입니다.
9.AlgoPuzzleVQA 다중 모드 알고리즘 퍼즐 데이터 세트
출판사:싱가포르 기술 및 디자인 대학교
출시 시간:2024
예상 크기:157.85MB
다운로드 주소:https://go.hyper.ai/mmzdn
이 데이터 세트에는 부울 논리, 조합론, 그래프 이론, 최적화, 검색 등 다양한 수학 및 알고리즘 주제를 다루는 18개의 퍼즐이 포함되어 있습니다. 이 데이터 세트는 인간이 작성한 코드에서 자동화된 방식으로 퍼즐을 생성하므로 추론 복잡성과 데이터 세트 크기 측면에서 데이터 세트를 임의로 확장할 수 있습니다.
10.TAL-SCQ5K 중국 수학 경시대회 데이터 세트
출판사:좋은 미래
출시 시간:2023
예상 크기:11.4MB
다운로드 주소:https://go.hyper.ai/ZuYTB
TAL-SCQ5K는 5,000개의 중국어 수학 경시대회 문제(훈련용 3,000개, 테스트용 2,000개)를 포함한 고품질 중국 수학 경시대회 데이터 세트로, 중국어와 영어로 제공됩니다.
위에 나열된 내용은 HyperAI가 수집한 10개의 수학적 분류 데이터 세트입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!
더 많은 데이터 세트를 얻으려면 원본 기사를 읽어보세요.
HyperAI 소개
HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.
* 1200개 이상의 공개 데이터 세트에 대한 국내 가속 다운로드 노드 제공
* 300개 이상의 고전적이고 인기 있는 온라인 튜토리얼이 포함되어 있습니다.
* 100개 이상의 AI4Science 논문 사례 해석
* 500개 이상의 관련 용어 검색 지원
* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅
학습 여정을 시작하려면 공식 웹사이트를 방문하세요.