DWIE: 다중 작업 문서 수준 정보 추출을 위한 엔티티 중심 데이터셋

이 논문은 정보 추출(Information Extraction, IE)을 위한 새로운 다중 작업 데이터셋인 ‘DWIE(Die Deutsche Welle corpus for Information Extraction)’를 제안한다. DWIE는 네 가지 주요 정보 추출 하위 작업을 통합한 데이터셋으로, (i) 명명된 실체 인식(Named Entity Recognition, NER), (ii) 공명사용 해소(Coreference Resolution), (iii) 관계 추출(Relation Extraction, RE), 그리고 (iv) 실체 연결(Entity Linking)을 포함한다. DWIE는 문서 전체 수준에서 개념적 실체 간의 상호작용과 특성을 기술하는 실체 중심(entity-centric) 데이터셋으로 설계되었다. 이는 현재 주류를 이루는 언급 기반(mention-driven) 접근 방식과 대비된다. 기존의 언급 기반 접근은 각 문장 내에서 명명된 실체 언급을 탐지하고 분류하는 데서 시작하지만, DWIE는 실체 자체를 중심으로 문서 전체의 맥락을 반영한다.또한 DWIE를 활용한 IE 모델 개발 및 평가 과정에서 두 가지 주요 과제를 제기한다. 첫째, 실체 중심의 DWIE 데이터셋에서 전통적인 언급 수준의 평가 지표를 NER 및 RE 작업에 적용할 경우, 빈번히 등장하는 실체에 대한 예측에 의해 평가 지표가 지배되는 문제가 발생할 수 있다. 이 문제를 해결하기 위해, 예측된 실체와 참값 실체를 구성하는 언급 수를 고려한 새로운 실체 중심의 평가 지표를 제안한다. 둘째, 문서 수준의 다중 작업(annotation)은 서로 다른 문단에 위치한 실체 언급 간, 그리고 다양한 작업 간에 정보를 공유하고 전달해야 하는 요구를 수반한다. 이러한 요구를 충족하기 위해, 문서 수준의 언급 구간 간에 그래프 기반 신경망 메시지 전달 기법(neural message passing)을 활용하는 방안을 제안한다. 실험 결과, 공동 학습(joint learning) 설정에서 신경망 그래프 전파 기법을 도입함으로써 최대 5.5 F1 점수 포인트의 성능 향상이 확인되었다. 이는 DWIE가 다중 작업 정보 추출에서 표현 학습을 위한 그래프 신경망(GNN) 연구를 더욱 촉진할 잠재력을 지닌다는 것을 시사한다. DWIE는 공개적으로 GitHub에서 제공되며, 주소는 https://github.com/klimzaporojets/DWIE 이다.