ZEN: N-gram 표현으로 강화된 중국어 텍스트 인코더의 사전 학습

텍스트 인코더의 사전 학습은 일반적으로 작은 텍스트 단위에 해당하는 토큰 시퀀스로 텍스트를 처리합니다. 예를 들어, 영어에서는 단어 조각(word pieces), 중국어에서는 문자(characters)가 사용됩니다. 그러나 이 과정에서 더 큰 텍스트 단위가 지니는 정보가 생략되므로, 인코더는 특정 문자 조합에 쉽게 적응할 수 없습니다. 이로 인해 중요한 의미론적 정보가 손실되는데, 특히 중국어의 경우 명시적인 단어 경계가 없기 때문에 이러한 문제점이 더욱 심각합니다. 본 논문에서는 ZEN이라는 새로운 모델을 제안합니다. ZEN은 BERT 기반의 중국어(Z) 텍스트 인코더로, N-gram 표현(N-gram representations)을 통해 다양한 문자 조합을 고려하여 학습됩니다. 결과적으로 잠재적인 단어 또는 구 경계가 명시적으로 사전 학습되고 미세 조정(fine-tuning)되어 문자 인코더(BERT)와 함께 사용됩니다. 따라서 ZEN은 문자 시퀀스와 그 안에 포함된 단어 또는 구의 포괄적인 정보를 통합합니다. 실험 결과는 ZEN이 일련의 중국어 자연어 처리(NLP) 작업에서 효과적임을 보여주었습니다. 우리는 ZEN이 다른 이미 출판된 인코더보다 적은 자원을 사용하면서도 대부분의 작업에서 최고 수준의 성능을 달성할 수 있음을 입증하였습니다. 또한 ZEN이 소규모 말뭉치에서 학습될 때에도 합리적인 성능을 얻을 수 있다는 점을 보였습니다. 이는 제한된 데이터 환경에서 사전 학습 기술을 적용하는 데 중요합니다. ZEN의 코드와 사전 학습된 모델은 https://github.com/sinovation/zen 에서 제공됩니다.