17일 전

계층적 메타임베딩을 활용한 코드스위칭 명명된 엔터티 인식

Genta Indra Winata, Zhaojiang Lin, Jamin Shin, Zihan Liu, Pascale Fung
계층적 메타임베딩을 활용한 코드스위칭 명명된 엔터티 인식
초록

다수의 주요 언어를 사용하는 국가에서는 대화 중에 서로 다른 언어를 혼용하는 현상을 일반적으로 '코드 스위칭(code-switching)'이라고 한다. 이 문제를 다룬 기존 연구들은 주로 단어 수준의 특성, 예를 들어 단어 임베딩(word embeddings)에 초점을 맞추었다. 그러나 많은 경우에 언어 간에는 공통되는 하위단어(subwords)가 존재하며, 특히 관련성이 높은 언어 간에만 해당되는 것이 아니라, 외관상 관련성이 없는 언어들 사이에도 이러한 공통성이 나타날 수 있다. 따라서 본 연구에서는 다국어 단어 수준 및 하위단어 수준의 임베딩을 통합하여 언어에 의존하지 않는 어휘 표현을 학습하는 계층적 메타임베딩(Hierarchical Meta-Embeddings, HME)을 제안한다. 영어-스페인어 코드 스위칭 데이터에 대한 명명된 실체 인식(Named Entity Recognition) 작업에서, 본 모델은 다국어 환경에서 최신 기술(state-of-the-art) 성능을 달성하였다. 또한 교차 언어 설정에서 본 모델이 관련성이 높은 언어뿐 아니라, 어원이 다른 언어로부터도 학습할 수 있음을 보였다. 마지막으로, 다양한 하위 단위(subunits)를 결합하는 것이 코드 스위칭 실체를 효과적으로 포착하는 데 핵심적임을 입증하였다.