날짜

2년 전

크기

939.48 MB

조직

게시 URL

github.com

Paper URL

arxiv.org

태그

자연어 처리

LCCC(Large-scale Cleaned Chinese Conversation corpus)는 칭화대학교와 삼성중국연구소가 2020년에 공개했습니다. 데이터 세트는 주로 두 부분으로 구성됩니다. LCCC 기반(680만 개의 대화)과 LCCC 대규모(1,200만 개의 대화). 연구팀은 11만 개의 수동으로 주석이 달린 대화 쌍을 통해 훈련된 분류기와 일련의 규칙을 기반으로 데이터 세트의 대화 데이터 품질을 보장하기 위해 엄격한 데이터 필터링 프로세스를 설계했습니다. 연구팀이 걸러낸 노이즈에는 다음이 포함됩니다: 욕설, 특수문자, 이모티콘, 문법적으로 틀린 문장, 문맥상 관련성이 없는 대화. 정리된 데이터 세트와 사전 학습된 모델은 짧은 텍스트 대화 모델링 연구를 용이하게 할 것입니다.

소환

연구에 저희 데이터셋이나 모델을 사용하시는 경우, 저희 논문(https://arxiv.org/abs/2008.03946)을 인용해 주시면 감사하겠습니다. @inproceedings{wang2020chinese, 제목={대규모 중국어 단문 대화 데이터셋}, 작성자={Wang, Yida 및 Ke, Pei 및 Zheng, Yinhe 및 Huang, Kaili 및 Jiang, Yong 및 Zhu, Xiaoyan 및 Huang, Minlie} 책 제목={NLPCC}, 연도={2020}, url={https://arxiv.org/abs/2008.03946} }

LCCC.torrent

시딩 1다운로드 중 0완료됨 387총 다운로드 수 626

LCCC/
- README.md
  1.38 KB
- README.txt
  2.76 KB

이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

undefined

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HyperAI

이 데이터셋 사용

Discord에서 논의하기

날짜

2년 전

크기

939.48 MB

조직

게시 URL

github.com

Paper URL

arxiv.org

태그

자연어 처리

소환

LCCC.torrent

시딩 1다운로드 중 0완료됨 387총 다운로드 수 626

LCCC/
- README.md
  1.38 KB
- README.txt
  2.76 KB

undefined

Verbatim Spans 쿼리 조건 증거 추출 데이터 세트

14일 전

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

한 달 전

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

24일 전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

LCCC 대용량 중국어 대화 코퍼스

소환

AI로 AI 구축

HyperAI Newsletters

Command Palette

LCCC 대용량 중국어 대화 코퍼스

소환

undefined

Verbatim Spans 쿼리 조건 증거 추출 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

AI로 AI 구축

HyperAI Newsletters

Command Palette

LCCC 대용량 중국어 대화 코퍼스

소환

undefined

Verbatim Spans 쿼리 조건 증거 추출 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

AI로 AI 구축

HyperAI Newsletters

undefined

Verbatim Spans 쿼리 조건 증거 추출 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

undefined

Verbatim Spans 쿼리 조건 증거 추출 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트