2달 전
제로-리소스 환경에서의 크로스-언어 시퀀스 라벨링을 위한 모델 및 데이터 전송
Iker García-Ferrero; Rodrigo Agerri; German Rigau

초록
제로-리소스 크로스-링굴 전송 접근법은 소스 언어에서 감독된 모델을 라벨이 부착되지 않은 대상 언어에 적용하는 것을 목표로 합니다. 본 논문에서는 크로스-링굴 제로-리소스 시퀀스 라벨링을 위해 지금까지 사용된 두 가지 주요 기술, 즉 데이터 전송 또는 모델 전송 기반의 기술에 대해 심층 연구를 수행합니다. 이전 연구에서는 번역 및 어노테이션 투영(데이터 기반 크로스-링굴 전송)이 크로스-링굴 시퀀스 라벨링에 효과적인 기술임을 제안하였으나, 본 논문에서는 실험적으로 고용량 다국어 언어 모델이 제로샷 설정(모델 기반 크로스-링굴 전송)에서 데이터 기반 크로스-링굴 전송 접근법보다 일관되게 우수한 성능을 보이는 것을 입증하였습니다. 결과의 상세 분석은 이러한 차이가 언어 사용의 중요한 차이 때문일 수 있음을 시사합니다. 구체적으로, 머신 번역은 골드 스탠다드 데이터를 사용할 때 모델이 노출되는 텍스트 신호와 다른 신호를 자주 생성하여, 미세 조정(fine-tuning) 및 평가 과정 모두에 영향을 미칩니다. 또한 우리의 결과는 고용량 다국어 언어 모델이 이용 가능하지 않을 때 데이터 기반 크로스-링굴 전송 접근법이 여전히 경쟁력 있는 옵션이라는 점을 나타냅니다.