17일 전
효과적인 제로-샷 및 희소 샷 관계 추출을 위한 레이블 베르발라이제이션과 함의
Oscar Sainz, Oier Lopez de Lacalle, Gorka Labaka, Ander Barrena, Eneko Agirre

초록
관계 추출 시스템은 레이블이 부여된 예시의 방대한 양을 요구하지만, 이러한 레이블링 작업은 비용이 매우 높다. 본 연구에서는 관계 추출을 단순한 수작업으로 작성된 관계의 언어적 표현(verbализation)을 활용한 함의(entailment) 작업으로 재정의하였다. 이 관계의 언어적 표현은 관계당 15분 이내에 생성할 수 있다. 시스템은 미리 훈련된 텍스트 함의 엔진을 기반으로 하며, 훈련 예시 없이 즉시 사용(제로샷)하거나, 레이블이 부여된 예시를 기반으로 추가 미세조정(fine-tuning)을 수행할 수 있다(소량 샘플 또는 완전 훈련). TACRED 데이터셋에서의 실험 결과, 제로샷 상황에서 63%의 F1 점수를 달성하였으며, 관계당 16개의 예시를 사용한 소량 샘플 조건에서는 69%의 F1 점수를 기록하였다. 이는 동일한 조건에서 가장 우수한 지도 학습 시스템보다 17포인트 이상 높은 성능이며, 현재 최고 수준의 성능과 단 4포인트 차이에 그친다(해당 최고 수준 시스템은 훈련 데이터를 20배 더 사용). 또한, 더 큰 함의 모델을 사용할 경우 성능이 크게 향상됨을 보여주었으며, 제로샷 상황에서 최대 12포인트의 성능 향상이 가능하다. 완전 훈련된 경우, 본 연구는 TACRED에서 지금까지 보고된 최고 성능을 기록하였다. 분석 결과, 본 연구의 소량 샘플 시스템은 관계 간 구분에 특히 효과적이며, 데이터가 부족한 환경에서 성능 차이의 주요 원인은 '관계 없음' 케이스를 정확히 식별하는 능력에 있음을 확인하였다.