HyperAI초신경

DuIE 대규모 중국어 정보 추출 데이터 세트

날짜

3년 전

크기

242.66 MB

기관

바이두

발행 주소

ai.baidu.com

라이선스

非商业用途

카테고리

DuIE는 아키텍처 기반 지식 추출 알고리즘을 평가하는 데 사용할 수 있는 대규모 수동 주석 데이터 세트입니다.

이 데이터 세트에는 450,000개 이상의 SPO 트리플(주어-술어-목적어 트리플)과 사전 지정된 구조와 49개의 술어로 구성된 210,000개 이상의 실제 중국어 문장이 포함되어 있습니다.

이 데이터 세트의 모든 문장은 바이두 백과사전과 바이두 뉴스 검색에서 추출되었습니다. 이 데이터 세트의 텍스트는 뉴스, 엔터테인먼트, 사용자 생성 콘텐츠 등 실제 응용 프로그램에서 발견되는 다양한 분야를 다룹니다.

데이터 세트는 다음 데이터로 구성됩니다.

  • 214,590개의 문장, 그 중:
    • 172,983개의 문장이 훈련 세트로 사용되었습니다.
    • 21,626개의 문장이 개발 세트입니다.
    • 19,981개의 문장이 테스트 세트로 사용되었습니다.
  • 457,866개의 인스턴스, 그 중:
    • 363,960개의 인스턴스가 훈련 세트입니다.
    • 45,558개의 인스턴스가 개발 세트입니다.
    • 테스트 세트에는 48,348개의 인스턴스가 있습니다.

예시 데이터:

DuIE.torrent
시딩 2다운로드 중 0완료됨 477총 다운로드 횟수 1,151
  • DuIE/
    • README.md
      1.53 KB
    • README.txt
      3.07 KB
      • data/
        • all_50_schemas
          6.94 KB
        • dev_data.json
          27.1 MB
        • train_data.json
          242.66 MB