초록
원시 텍스트에서 관계 트리플릿(triplet)을 추출하는 것은 정보 추출에서 핵심적인 과제로, 지식 기반(populating or validating knowledge bases), 사실 확인(fact-checking), 그리고 기타 후속 작업 등 다양한 응용을 가능하게 한다. 그러나 기존의 접근 방식은 일반적으로 오류가 누적되는 다단계 파이프라인을 필요로 하거나, 다루는 관계 유형의 수가 제한적이라는 한계를 가지고 있다. 이러한 문제를 해결하기 위해 우리는 자동 회귀적(seq2seq) 모델의 활용을 제안한다. 이들 모델은 언어 생성 외에도 엔티티 링킹(Entity Linking)과 같은 자연어 이해(NLU) 과제에서도 뛰어난 성능을 보였으며, 이는 seq2seq 형태로 문제를 재정의함으로써 가능해졌다.본 논문에서는 관계 트리플릿을 텍스트 시퀀스로 표현함으로써 관계 추출을 단순화할 수 있음을 보이며, BART 기반의 seq2seq 모델인 REBEL을 제안한다. REBEL은 200가지 이상의 다양한 관계 유형에 대해 엔드 투 엔드(end-to-end) 관계 추출을 수행할 수 있다. 다양한 관계 추출 및 관계 분류 벤치마크에서의 미세 조정(fine-tuning)을 통해 모델의 유연성을 입증하였으며, 대부분의 벤치마크에서 최신 기준(SOTA, state-of-the-art) 성능을 달성하였다.