2달 전

텍스트적 함의를 이용한 이벤트 인수 추출: 다중 출처 학습을 활용한 제로샷 및 퍼샷 방법

Oscar Sainz; Itziar Gonzalez-Dios; Oier Lopez de Lacalle; Bonan Min; Eneko Agirre
초록

최근 연구에서는 관계 추출(Relation Extraction, RE)과 같은 자연어 처리(NLP) 작업을 언어화를 통해 텍스트 의미 연역(Textual Entailment) 작업으로 재구성할 수 있으며, 사전 학습된 의미 연역 모델 덕분에 제로샷(zero-shot) 및 소수 샷(few-shot) 환경에서 뛰어난 성능을 보임을 입증하였습니다. 현재의 RE 데이터셋에서 관계들이 쉽게 언어화될 수 있다는 사실은 의미 연역이 더 복잡한 작업에서도 효과적일지에 대한 의문을 제기합니다. 본 연구에서는 의미 연역이 사건 인자 추출(Event Argument Extraction, EAE)에서도 효과적임을 보여주며, ACE와 WikiEvents 데이터셋에서 각각 50%와 20%의 수동 주석만으로 완전 학습(full training) 시와 동등한 성능을 달성할 수 있음을 확인하였습니다. 더욱 중요한 점은 EAE를 의미 연역으로 재구성함으로써 도메인 간 주석 전송(annotation transfer)의 장벽이 되었던 스키마(schema)에 대한 의존성을 완화시킬 수 있다는 것입니다. 이로 인해 ACE와 WikiEvents 간의 다중 출처 전송(multi-source transfer)은 전송 없이 완전 학습 시 필요한 주석량을 각각 10%와 5%까지 추가로 줄일 수 있습니다. 우리의 분석 결과는 좋은 성능을 얻기 위한 핵심 요소가 여러 개의 의미 연역 데이터셋을 사용하여 의미 연역 모델을 사전 학습하는 것임을 밝혔습니다. 기존 접근 방식과 유사하게, 우리의 방법은 각 사건 인자 유형(event argument type)당 약 15분 미만의 수동 언어화(manual verbalization) 노력이 필요하며, 다양한 전문성 수준의 사용자들로 하여금 비슷한 결과를 얻게 할 수 있습니다.

텍스트적 함의를 이용한 이벤트 인수 추출: 다중 출처 학습을 활용한 제로샷 및 퍼샷 방법 | 최신 연구 논문 | HyperAI초신경