HyperAIHyperAI

Command Palette

Search for a command to run...

LCCC 대용량 중국어 대화 코퍼스

날짜

2년 전

크기

939.48 MB

조직

Tsinghua University(清华大学)

게시 URL

github.com

Paper URL

arxiv.org

LCCC(Large-scale Cleaned Chinese Conversation corpus)는 칭화대학교와 삼성중국연구소가 2020년에 공개했습니다. 데이터 세트는 주로 두 부분으로 구성됩니다. LCCC 기반(680만 개의 대화)과 LCCC 대규모(1,200만 개의 대화). 연구팀은 11만 개의 수동으로 주석이 달린 대화 쌍을 통해 훈련된 분류기와 일련의 규칙을 기반으로 데이터 세트의 대화 데이터 품질을 보장하기 위해 엄격한 데이터 필터링 프로세스를 설계했습니다. 연구팀이 걸러낸 노이즈에는 다음이 포함됩니다: 욕설, 특수문자, 이모티콘, 문법적으로 틀린 문장, 문맥상 관련성이 없는 대화. 정리된 데이터 세트와 사전 학습된 모델은 짧은 텍스트 대화 모델링 연구를 용이하게 할 것입니다.

LCCC.torrent
시딩 2다운로드 중 0완료됨 325총 다운로드 수 578
  • LCCC/
    • README.md
      1.38 KB
    • README.txt
      2.76 KB
      • data/
        • lccc.zip
          939.48 MB

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp