17일 전

CompactIE: 오픈 정보 추출에서의 컴팩트한 사실

Farima Fatahi Bayat, Nikita Bhutani, H.V. Jagadish
CompactIE: 오픈 정보 추출에서의 컴팩트한 사실
초록

현대의 신경망 기반 오픈IE(OpenIE) 시스템과 벤치마크의 주요 단점은 추출된 정보의 커버리지(포괄성)를 강조하면서 구성 요소의 간결성(컴팩트함)을 소홀히 한다는 점이다. 이는 많은 후속 작업에서 오픈IE 추출물의 실용성을 크게 제한한다. 추출물이 간결하고 구성 요소를 공유할 경우, 그 유용성은 크게 향상될 수 있다. 이를 위해 우리는 신경망 기반 방법을 활용하여 간결한 추출물을 식별하는 문제를 탐구한다. 본 연구에서는 구성 요소가 겹치는 형태로 간결한 추출물을 생성하기 위해 새로운 파이프라인 구조를 채택한 CompactIE라는 오픈IE 시스템을 제안한다. 이 시스템은 먼저 추출물의 구성 요소를 탐지한 후, 이를 연결하여 추출물을 구성한다. 우리는 기존 벤치마크를 처리하여 얻은 간결한 추출물 데이터로 본 시스템을 훈련시켰다. CaRB 및 Wire57 데이터셋에 대한 실험 결과, 기존 시스템 대비 CompactIE는 1.5배에서 2배에 달하는 간결한 추출물을 정확도를 유지하면서 발견함으로써, 오픈IE 분야에서 새로운 최고 성능(상태의 최전선)을 수립하였다.