17일 전
DocOIE: 오픈IE를 위한 문서 수준의 컨텍스트 인지 데이터셋
Kuicai Dong, Yilin Zhao, Aixin Sun, Jung-Jae Kim, Xiaoli Li

초록
오픈 정보 추출(Open Information Extraction, OpenIE)은 문장으로부터 구조화된 관계 튜플(주어, 관계, 목적어)을 추출하는 것을 목표로 하며, 다양한 후속 자연어 처리(NLP) 응용 분야에서 핵심적인 역할을 한다. 기존의 해결 방안들은 문장 수준에서 정보를 추출하며, 추가적인 맥락 정보를 고려하지 않는다. 그러나 실질적으로 문장은 독립적으로 존재하기보다는 문서의 일부로 존재하는 경우가 많다. 따라서 문장을 정확히 해석하기 위해서는 해당 문장 주변의 관련 맥락 정보를 접근할 필요가 있다. 현재까지 문서 수준의 맥락 인지형 OpenIE 데이터셋이 존재하지 않아, 우리는 의료 및 교통 두 분야의 80개 문서에서 총 800개 문장을 수작업으로 주석화하여 평가를 위한 DocOIE 데이터셋을 구축하였다. 또한, 문서 수준의 맥락을 고려하는 새로운 OpenIE 모델인 DocIE를 제안한다. DocIE를 기반으로 한 실험 결과는 문서 수준의 맥락 정보를 통합하는 것이 OpenIE 성능 향상에 유익함을 보여준다. 본 연구에서 개발한 DocOIE 데이터셋과 DocIE 모델은 모두 공개되어 있다.