
최근 반복 신경망(Recurrent Neural Networks)을 활용한 언어 모델링 기술의 발전으로, 언어를 문자의 분포로 모델링하는 것이 가능해졌다. 이들 모델은 이전 문자들을 바탕으로 다음 문자를 예측하도록 학습함으로써, 단어, 문장, 하위절, 심지어 감정까지도 자동으로 내재화하는 언어적 개념을 학습할 수 있음이 입증되었다. 본 논문에서는 훈련된 문자 기반 언어 모델의 내부 상태를 활용하여, 우리는 새로운 유형의 단어 임베딩을 제안한다. 이를 ‘컨텍스추얼 스트링 임베딩(Contextual String Embeddings)’이라 부르며, 이 임베딩은 (a) 단어라는 개념을 명시적으로 고려하지 않고, 오히려 단어를 문자의 시퀀스로 본다는 점에서 본질적으로 문자 기반 모델링을 수행하며, (b) 주변 텍스트에 따라 컨텍스트화된다는 점에서, 동일한 단어라도 사용 맥락에 따라 다른 임베딩 값을 갖는다는 특징을 지닌다. 기존 임베딩과의 비교 평가를 수행한 결과, 제안하는 임베딩이 후속 작업(다운스트림 작업)에 매우 유용함을 확인할 수 있었다. 네 가지 전형적인 시퀀스 레이블링 작업에서 일관되게 기존 최고 성능을 초과하였으며, 특히 영어 및 독일어 명명된 실체 인식(Named Entity Recognition, NER)에서 기존 연구를 크게 능가하여 CoNLL03 공동 과제에서 새로운 최고 성능의 F1 점수를 보고할 수 있었다. 본 연구에서 사용한 모든 코드 및 사전 훈련된 언어 모델은 연구 공동체가 실험을 재현하고 본 임베딩을 다른 작업에 적용할 수 있도록, 사용이 간편한 프레임워크 형태로 공개하였다. 관련 자료는 다음과 같은 링크에서 확인할 수 있다: https://github.com/zalandoresearch/flair