날짜
크기
기관
발행 주소
github.com
라이선스
其他
태그
카테고리
NLPCC2016 데이터 세트는 인기 있는 뉴스 데이터 세트와 다르며 Sina Weibo의 비공식적인 텍스트를 더 많이 사용합니다. 훈련 및 테스트 데이터는 금융, 스포츠, 엔터테인먼트 등 다양한 주제의 마이크로블로그로 구성되어 있습니다. 이 데이터 세트는 utf-8로 인코딩되어 있으며 중국어 단어 분할 작업에 사용할 수 있습니다.