DuIE 대규모 중국어 정보 추출 데이터 세트
DuIE는 아키텍처 기반 지식 추출 알고리즘을 평가하는 데 사용할 수 있는 대규모 수동 주석 데이터 세트입니다.
이 데이터 세트에는 450,000개 이상의 SPO 트리플(주어-술어-목적어 트리플)과 사전 지정된 구조와 49개의 술어로 구성된 210,000개 이상의 실제 중국어 문장이 포함되어 있습니다.
이 데이터 세트의 모든 문장은 바이두 백과사전과 바이두 뉴스 검색에서 추출되었습니다. 이 데이터 세트의 텍스트는 뉴스, 엔터테인먼트, 사용자 생성 콘텐츠 등 실제 응용 프로그램에서 발견되는 다양한 분야를 다룹니다.
데이터 세트는 다음 데이터로 구성됩니다.
- 214,590개의 문장, 그 중:
- 172,983개의 문장이 훈련 세트로 사용되었습니다.
- 21,626개의 문장이 개발 세트입니다.
- 19,981개의 문장이 테스트 세트로 사용되었습니다.
- 457,866개의 인스턴스, 그 중:
- 363,960개의 인스턴스가 훈련 세트입니다.
- 45,558개의 인스턴스가 개발 세트입니다.
- 테스트 세트에는 48,348개의 인스턴스가 있습니다.
예시 데이터:

DuIE.torrent
시딩 2다운로드 중 0완료됨 477총 다운로드 횟수 1,151