2달 전
UniTrans: 라벨링되지 않은 데이터를 활용한 언어 간 명명된 개체 인식을 위한 모델 전이와 데이터 전이의 통합
Qianhui Wu; Zijia Lin; Börje F. Karlsson; Biqing Huang; Jian-Guang Lou

초록
이전의 크로스-링구얼 네임 엔티티 인식(NER) 연구에서 라벨링된 데이터가 없거나 적은 경우 두 가지 주요 범주로 나뉘었습니다: 모델 전송 기반 방법과 데이터 전송 기반 방법입니다. 본 논문에서는 이 두 가지 방법이 서로 보완할 수 있다는 점을 발견하였습니다. 즉, 모델 전송 기반 방법은 언어 독립적 특성을 통해 문맥 정보를 활용할 수 있지만, 대상 언어에서의 작업 특异性 정보는 확인할 수 없습니다. 반면에, 데이터 전송 기반 방법은 일반적으로 번역을 통해 가짜 대상 언어 학습 데이터를 생성하지만, 부정확한 번역으로 인해 문맥 정보 활용이 약화됩니다. 또한, 이전 연구들은 쉽게 수집할 수 있고 개선된 결과를 위해 잠재적으로 가치 있는 정보를 포함하는 라벨링되지 않은 대상 언어 데이터를 거의 활용하지 않았습니다.이러한 문제들을 해결하기 위해, 우리는 크로스-링구얼 NER을 위한 모델 전송과 데이터 전송을 통합하는 새로운 접근 방식인 UniTrans(유니트랜스)를 제안합니다. 더욱이, 유니트랜스는 강화된 지식 증류를 통해 라벨링되지 않은 대상 언어 데이터에서 이용 가능한 정보를 활용합니다. 우리는 제안된 유니트랜스를 벤치마크 데이터셋 상의 4개 대상 언어에 대해 평가하였습니다. 실험 결과는 유니트랜스가 기존 최신 방법들보다 크게 우수함을 보여주었습니다.