BenchIE: 다각적 사실 기반 개방형 정보 추출 평가를 위한 프레임워크

OIE 시스템의 내재적 평가는 인간 평가자들이 추출 결과의 정확성을 판단하는 수동 방식 또는 표준화된 벤치마크를 활용한 자동 방식으로 수행된다. 후자의 경우 비용 효율성이 훨씬 뛰어나지만, 기존 OIE 벤치마크의 불완전성으로 인해 신뢰도가 낮은 편이다. 구체적으로, 기준 데이터(ground truth) 추출 결과에 동일한 사실에 대한 모든 수용 가능한 변형이 포함되어 있지 않아 모델 성능 평가가 신뢰할 수 없게 된다. 더불어 기존 OIE 벤치마크는 영어 외에는 제공되지 않는다. 본 연구에서는 영어, 중국어, 독일어를 대상으로 하는 OIE 시스템의 포괄적 평가를 위한 벤치마크 및 평가 프레임워크인 BenchIE를 제안한다. 기존 OIE 벤치마크와 달리, BenchIE는 사실 기반(fact-based)이며, 추출 결과의 정보적 동등성(informational equivalence)을 고려한다. 본 연구의 골드 스탠다드는 사실 싱세트(fact synsets)로 구성되며, 동일한 사실에 대한 모든 수용 가능한 표면 형태를 체계적으로 정리한 클러스터로 구성된다. 또한 OIE의 일반적인 후속 응용을 고려하여 BenchIE는 다면적(multi-faceted) 구조를 갖추고 있다. 즉, 추출 결과의 간결성(compactness)이나 최소성(minimality)과 같은 OIE 평가의 다양한 측면에 초점을 맞춘 벤치마크 변형을 제작하였다. BenchIE를 활용하여 최신의 여러 OIE 시스템을 평가한 결과, 기존 벤치마크가 보여준 성능 수준보다 훨씬 낮은 효과성을 보임을 입증하였다. BenchIE(데이터 및 평가 코드)는 https://github.com/gkiril/benchie에서 공개되어 있다.