HyperAI

LCCC(Large-scale Cleaned Chinese Conversation corpus)는 칭화대학교와 삼성중국연구소가 2020년에 공개했습니다.

데이터 세트는 주로 두 부분으로 구성됩니다. LCCC 기반(680만 개의 대화)과 LCCC 대규모(1,200만 개의 대화). 연구팀은 11만 개의 수동으로 주석이 달린 대화 쌍을 통해 훈련된 분류기와 일련의 규칙을 기반으로 데이터 세트의 대화 데이터 품질을 보장하기 위해 엄격한 데이터 필터링 프로세스를 설계했습니다. 연구팀이 걸러낸 노이즈에는 다음이 포함됩니다: 욕설, 특수문자, 이모티콘, 문법적으로 틀린 문장, 문맥상 관련성이 없는 대화. 정리된 데이터 세트와 사전 학습된 모델은 짧은 텍스트 대화 모델링 연구를 용이하게 할 것입니다.

LCCC 대용량 중국어 대화 코퍼스