17일 전
소수 샘플 시퀀스 레이블링을 위한 개선된 스팬 기반 분해 방법
Peiyi Wang, Runxin Xu, Tianyu Liu, Qingyu Zhou, Yunbo Cao, Baobao Chang, Zhifang Sui

초록
소수 샘플 시퀀스 레이블링(Few-Shot Sequence Labeling, FSSL)은 이름 붙여진 실체 인식(named entity recognition) 및 슬롯 채우기(slot filling)과 같은 태깅 모델이 새로운 자원이 부족한 도메인에서 일반화할 수 있도록 하는 대표적인 접근 방식이다. 최근 들어, 메트릭 기반 메타학습 프레임워크는 FSSL에 대한 유망한 방법으로 주목받고 있다. 그러나 기존 대부분의 연구들은 토큰 수준의 유사도에 기반하여 각 토큰에 레이블을 부여하는 방식을 채택하고 있어, 이름 붙여진 실체나 슬롯의 통합성(integrity)을 간과하고 있다. 이러한 문제를 해결하기 위해 본 논문에서는 FSSL을 위한 개선된 스팬 기반 분해 방법인 ESD(Enhanced Span-based Decomposition)를 제안한다. ESD는 테스트 쿼리와 지원 인스턴스 사이의 스팬 수준 매칭 문제로 FSSL을 재정의한다. 구체적으로, ESD는 스팬 매칭 문제를 강화된 스팬 표현, 클래스 프로토타입 집계, 스팬 간 충돌 해결 등 스팬 수준의 일련의 절차로 분해한다. 광범위한 실험 결과, ESD는 대표적인 두 가지 FSSL 벤치마크인 FewNERD와 SNIPS에서 새로운 최고 성능(SOTA)을 달성하였으며, 중첩된 레이블링 및 노이즈가 있는 태깅 환경에서 더 뛰어난 강건성을 입증하였다. 본 연구의 코드는 다음 링크에서 확인할 수 있다: https://github.com/Wangpeiyi9979/ESD.