소수 샘플 시퀀스 레이블링을 위한 분해형 메타러닝

적은 샘플 시퀀스 레이블링은 데이터 부족 상황에서 자연어 이해 작업의 많은 문제를 포괄하는 일반적인 문제 설정으로, 모델이 단지 몇 개의 레이블된 예시를 통해 새로운 타입으로 일반화해야 하는 요구를 수반한다. 최근의 연구 대부분은 메트릭 기반 메타학습을 채택하고 있으나, 이는 다양한 기타(Other) 프로토타입을 모델링하는 어려움과 도메인 차이가 큰 클래스로의 일반화 능력 부족이라는 도전에 직면해 있다. 이러한 문제를 극복하기 위해, 본 연구는 적은 샘플 명시 탐지와 적은 샘플 타입 분류라는 두 하위 작업으로 문제를 분해하고, 메타학습을 통해 순차적으로 해결하는 분해형 메타학습 프레임워크를 제안한다. 구체적으로, 다양한 타입 간 공유되는 경계 지식을 학습하도록 언급 탐지 모델을 유도하기 위해 모델 무차별 메타학습(MAML)을 활용한다. 탐지된 언급 구간을 기반으로, MAML 강화된 스팬 수준 프로토타입 네트워크를 사용하여 적은 샘플 타입 분류를 수행한다. 이를 통해 분해형 프레임워크는 다양한 기타 프로토타입을 모델링할 필요성을 회피할 수 있으며, 동시에 MAML 알고리즘의 도입으로 지원 예시 내 포함된 지식을 보다 효율적으로 탐색할 수 있어, 단지 몇 개의 레이블된 예시만으로도 새로운 타입에 빠르게 적응할 수 있는 능력을 갖춘다. 본 프레임워크 하에서, 두 하위 작업에 대해 별도의 모델을 사용하는 기본 구현을 탐색하였으며, 모델 크기와 추론 시간을 줄이기 위해 두 작업을 통합하는 공동 모델을 추가로 제안하여 자원이 제한된 환경에서도 더 실용적인 적용이 가능하도록 하였다. 명사구 인식, 슬롯 태깅, 이벤트 탐지, 품사 태깅 등 다양한 작업을 포함한 9개의 벤치마크 데이터셋에서 실시한 광범위한 실험 결과, 제안된 방법이 다양한 적은 샘플 시퀀스 레이블링 작업에서 최상의 성능을 달성함을 입증하였다.