HyperAI초신경

InfiMM-WebMath-40B 다중 모드 수학적 추론 데이터 세트

날짜

7달 전

크기

73.61 GB

기관

중국과학원(중국과학원)

발행 주소

huggingface.co

InfiMM-WebMath-40B 데이터 세트는 ByteDance와 중국 과학 아카데미의 연구팀에 의해 2024년에 공개되었습니다. 관련 논문의 제목은 "InfiMM-WebMath-40B: 향상된 수학적 추론을 위한 다중 모드 사전 훈련 강화".

이 데이터 세트는 수학적 추론 과제를 위해 특별히 설계된 대규모 오픈 소스 멀티모달 데이터 세트로, 2.4k개의 웹 페이지, 8.5k개의 관련 이미지 URL, 400억 개의 토큰을 포함하고 있으며, 이 모든 것은 CommonCrawl 데이터베이스(2019-2023)에서 신중하게 추출 및 필터링되었습니다. 이 데이터 세트의 공개는 오픈 소스 커뮤니티가 수학적 추론에서 다중 모드 대규모 언어 모델(MLLM)의 역량을 발전시키는 데 귀중한 리소스를 제공합니다.

데이터 세트 구축 프로세스에는 텍스트 추출, 언어 필터링, 고품질 콘텐츠 필터링, 중복 제거, 이미지 URL 추출이 포함됩니다. 이러한 단계를 거쳐 데이터 세트의 품질과 관련성이 보장되었습니다. 모델 학습 측면에서 InfiMM-WebMath-40B 데이터 세트는 다중 모드 설정에서 모델의 수학적 지식 습득 능력을 향상시키기 위한 추가적인 사전 학습에 사용됩니다. 또한, 모델 성능을 더욱 개선하기 위해 명령어 미세 조정이 수행되었습니다.

InfiMM-WebMath-40B.torrent
시딩 1다운로드 중 1완료됨 80총 다운로드 횟수 82
  • InfiMM-WebMath-40B/
    • README.md
      1.83 KB
    • README.txt
      3.67 KB
      • data/
        • InfiMM-WebMath-40B.zip
          73.61 GB