2달 전
T-Projection: 시퀀스 라벨링 작업을 위한 고품질 주석 투영
Iker García-Ferrero; Rodrigo Agerri; German Rigau

초록
주어진 시퀀스 라벨링 작업과 언어에 대해 쉽게 접근할 수 있는 라벨된 데이터가 부족한 경우, 주석 투영(Annotation Projection)은 자동으로 주석화된 데이터를 생성하기 위한 가능한 전략 중 하나로 제안되었습니다. 주석 투영은 일반적으로 병렬 코퍼스에서 소스 언어의 특정 구간에 속하는 라벨을 대상 언어의 해당 구간으로 이동시키는 작업으로 정식화되어 왔습니다. 본 논문에서는 T-투영(T-Projection)이라는 새로운 주석 투영 접근법을 소개합니다. T-투영은 대규모 사전 학습된 텍스트-텍스트 언어 모델과 최신 기계 번역 기술을 활용합니다. T-투영은 라벨 투영 작업을 두 개의 하위 작업으로 분해합니다: (i) 다국어 T5 모델을 사용하여 투영 후보 집합을 생성하는 단계와, (ii) 생성된 후보들을 번역 확률에 따라 순위를 매기는 단계입니다. 우리는 5개 인도유럽어와 8개 저자원 아프리카 언어에서 내재적 및 외재적 작업에 대한 실험을 수행했습니다. 실험 결과, T-투영이 이전의 주석 투영 방법들보다 크게 우수함을 입증하였습니다. 우리는 T-투영이 시퀀스 라벨링 작업에 대한 고품질 학습 데이터 부족 문제를 자동으로 해결하는 데 도움이 될 것으로 믿습니다. 코드와 데이터는 공개적으로 이용 가능합니다.