17일 전

DetIE: 객체 탐지에 영감을 받은 다국어 오픈 정보 추출

Michael Vasilkovsky, Anton Alekseev, Valentin Malykh, Ilya Shenbin, Elena Tutubalina, Dmitriy Salikhov, Mikhail Stepnov, Andrey Chertok, Sergey Nikolenko
DetIE: 객체 탐지에 영감을 받은 다국어 오픈 정보 추출
초록

오픈 정보 추출(OpenIE) 분야의 최신 신경망 방법들은 중복을 방지하기 위해 일반적으로 자동회귀적 또는 동사 기반 방식으로 트리플릿(또는 튜플)을 반복적으로 추출한다. 본 연구에서는 이러한 기존 방식과는 다른 접근법을 제안하며, 이는 동일하거나 더 뛰어난 성능을 달성할 수 있다. 구체적으로, 컴퓨터 비전 분야의 객체 탐지 알고리즘을 영감으로 삼아, 단일 패스(single-pass) 방식의 새로운 OpenIE 방법을 제안한다. 우리는 이중 매칭(bipartite matching) 기반의 순서 무관(order-agnostic) 손실 함수를 사용하여 유일한 예측을 유도하고, 시퀀스 레이블링을 위해 Transformer 기반의 인코더 전용 아키텍처를 활용한다. 제안된 방법은 기존 최신 모델들과 비교해 더 빠르며, 품질 지표 및 추론 시간 측면에서 표준 벤치마크에서 동일하거나 우수한 성능을 보인다. 특히 CaRB 데이터셋에서 OIE2016 평가 기준으로 67.7%의 F1 점수를 기록하며, 이전 최신 기술보다 추론 속도가 3.35배 빠르다. 또한, 모델의 다국어 버전을 두 가지 언어에 대해 제로샷(zero-shot) 설정에서 평가하고, 각 특정 언어에 맞게 모델을 미세 조정하기 위한 합성 다국어 데이터 생성 전략을 제안한다. 이러한 설정에서 다국어 Re-OIE2016에서 15%의 성능 향상을 보이며, 포르투갈어 및 스페인어 모두에서 75%의 F1 점수를 달성한다. 코드와 모델은 https://github.com/sberbank-ai/DetIE 에서 공개되어 있다.