HyperAI초신경

Seq-monkey Sequence Monkey 오픈 소스 데이터 세트 1.0

날짜

일 년 전

크기

10.73 GB

기관

발행 주소

github.com

카테고리

Sequence Monkey는 Mobvoi가 제공하는 대규모 언어 모델입니다.Sequence Monkey 데이터 세트는 Sequence Monkey 모델을 학습하는 데 사용되는 데이터 세트입니다. 일부 데이터 세트는 이제 대중에게 공개되었습니다.

데이터 세트의 1.0 버전은 중국어 일반 텍스트 코퍼스, 고대 시 번역 코퍼스, 텍스트 생성 코퍼스 등의 영역을 포괄합니다. 이 중 중국어 일반 텍스트 코퍼스는 Sequence Monkey 학습 세트에서 추출한 1,300만 개의 데이터로 대중에게 공개되어 있습니다. 고대 시 번역 오픈소스 데이터 세트는 고대와 현대 텍스트 번역에 대한 데이터 세트로, 68만 개의 시가 대중에게 공개되어 있습니다. 텍스트 생성 미세 조정 데이터 세트는 단어 오류 감지, 단어 오류 수정 및 텍스트 다듬기 작업에 사용할 수 있는 5,000개의 개방형 질의 응답 데이터를 제공합니다.

seq-monkey.torrent
시딩 3다운로드 중 1완료됨 259총 다운로드 횟수 590
  • seq-monkey/
    • README.md
      1.36 KB
    • README.txt
      2.72 KB
      • data/
        • seq-monkey-data-main 2.zip
          10.73 GB