IEPile 대규모 정보 추출 코퍼스
IEPile은 저장대학교에서 개발한 대규모 고품질 이중 언어(중국어 및 영어) 정보 추출(IE) 지침 미세 조정 데이터 세트로, 명명된 개체 인식(NER), 관계 추출(RE), 이벤트 추출(EE)의 세 가지 핵심 하위 작업을 포함합니다. 이 데이터 세트에는 약 200만 개의 명령어 샘플이 포함되어 있으며, 총 토큰 수는 약 3억 2천만 개로, 일반, 의료, 금융 등 다양한 분야를 포괄합니다.
연구팀은 영어 26개와 중국어 IE 7개 데이터 세트를 신중하게 통합하고, 어려운 음성 샘플 사전 구축 및 폴링 지침 생성을 포함하는 제안된 "스키마 기반 폴링 지침 구축 방법"을 채택하여 데이터 세트의 높은 품질을 보장했습니다. IEPile을 구축하면 정보 추출 작업에서 대규모 모델의 성능이 크게 향상되고, 특히 제로샷 일반화 기능이 향상되어 정보 추출 연구에 귀중한 리소스를 제공할 수 있습니다.
IEPile.torrent
시딩 3다운로드 중 1완료됨 203총 다운로드 횟수 457