17일 전

효과적인 제로-샷 및 희소 샷 관계 추출을 위한 레이블 베르발라이제이션과 함의

Oscar Sainz, Oier Lopez de Lacalle, Gorka Labaka, Ander Barrena, Eneko Agirre
효과적인 제로-샷 및 희소 샷 관계 추출을 위한 레이블 베르발라이제이션과 함의
초록

관계 추출 시스템은 레이블이 부여된 예시의 방대한 양을 요구하지만, 이러한 레이블링 작업은 비용이 매우 높다. 본 연구에서는 관계 추출을 단순한 수작업으로 작성된 관계의 언어적 표현(verbализation)을 활용한 함의(entailment) 작업으로 재정의하였다. 이 관계의 언어적 표현은 관계당 15분 이내에 생성할 수 있다. 시스템은 미리 훈련된 텍스트 함의 엔진을 기반으로 하며, 훈련 예시 없이 즉시 사용(제로샷)하거나, 레이블이 부여된 예시를 기반으로 추가 미세조정(fine-tuning)을 수행할 수 있다(소량 샘플 또는 완전 훈련). TACRED 데이터셋에서의 실험 결과, 제로샷 상황에서 63%의 F1 점수를 달성하였으며, 관계당 16개의 예시를 사용한 소량 샘플 조건에서는 69%의 F1 점수를 기록하였다. 이는 동일한 조건에서 가장 우수한 지도 학습 시스템보다 17포인트 이상 높은 성능이며, 현재 최고 수준의 성능과 단 4포인트 차이에 그친다(해당 최고 수준 시스템은 훈련 데이터를 20배 더 사용). 또한, 더 큰 함의 모델을 사용할 경우 성능이 크게 향상됨을 보여주었으며, 제로샷 상황에서 최대 12포인트의 성능 향상이 가능하다. 완전 훈련된 경우, 본 연구는 TACRED에서 지금까지 보고된 최고 성능을 기록하였다. 분석 결과, 본 연구의 소량 샘플 시스템은 관계 간 구분에 특히 효과적이며, 데이터가 부족한 환경에서 성능 차이의 주요 원인은 '관계 없음' 케이스를 정확히 식별하는 능력에 있음을 확인하였다.