GenIE: 생성형 정보 추출

텍스트의 구조적이고 기반 있는 표현은 일반적으로 닫힌 정보 추출(closed information extraction)을 통해 공식화되며, 이는 지정된 엔티티와 관계의 사전 정의된 집합을 포함하는 지식베이스 스키마와 일치하는 (주어, 관계, 목적어) 삼중항의 포괄적인 집합을 추출하는 문제이다. 기존의 대부분의 연구들은 오류 누적이 쉽게 발생하는 파이프라인 구조를 따르며, 모든 접근 방식은 현실적으로 불가능할 정도로 매우 작은 수의 엔티티와 관계에만 적용 가능하다. 본 연구에서는 닫힌 정보 추출의 첫 번째 엔드투엔드 자동회귀적 공식화인 GenIE(generative information extraction)를 제안한다. GenIE는 사전 훈련된 트랜스포머의 언어 지식을 자연스럽게 활용하여 텍스트 형태로 관계와 엔티티를 자동회귀적으로 생성한다. 새로운 이중 레벨 제약 생성 전략 덕분에, 오직 사전 정의된 지식베이스 스키마와 일치하는 삼중항만이 생성된다. 실험 결과, GenIE는 닫힌 정보 추출 분야에서 최신 기술 수준을 달성하였으며, 기존 베이스라인보다 훨씬 적은 훈련 데이터 포인트에서도 일반화 가능하고, 이전까지 다루기 어려웠던 수준의 대규모 엔티티와 관계로 확장 가능한 성능을 보였다. 본 연구를 통해 닫힌 정보 추출은 현실적인 시나리오에서 실용적으로 적용될 수 있게 되었으며, 하류 작업에 대한 새로운 기회를 제공한다. 또한 이 연구는 정보 추출의 핵심 과제들을 통합된 엔드투엔드 접근 방식으로 처리할 수 있는 길을 열었다. 코드, 데이터 및 모델은 https://github.com/epfl-dlab/GenIE 에서 제공된다.