날짜
크기
기관
발행 주소
huggingface.co
태그
카테고리
OpenWebMath는 인터넷의 대부분에서 수집된 고품질 수학 텍스트를 포함하는 데이터 세트입니다. 이는 Common Crawl에서 2000억 개가 넘는 HTML 파일에서 필터링 및 추출되어 총 147억 개의 토큰을 포함하는 630만 개의 문서 세트가 생성됩니다. OpenWebMath는 사전 학습 및미세 조정대규모 언어 모델.