11일 전

BERT는 어떤 의미를 갖는가? 문맥화된 임베딩을 통한 해석 가능한 단어의 의미 분류

Gregor Wiedemann, Steffen Remus, Avi Chawla, Chris Biemann

초록

최근 자연어처리(NLP) 분야에서 중요한 혁신으로 주목받고 있는 것이 맥락 기반 단어 임베딩(Contextualized Word Embeddings, CWE)이다. ELMo(Peters 등, 2018), Flair NLP(Akbik 등, 2018), BERT(Devlin 등, 2019)와 같은 모델들은 단어의 맥락에 따라 그 의미를 반영하는 벡터 표현을 제공한다. 이러한 CWE는 텍스트 분류, 시퀀스 태깅, 기계 번역 등 다양한 작업에서 고정형 단어 임베딩보다 우수한 성능을 보여주었다. 같은 단어 유형에 대해 맥락에 따라 벡터가 달라지기 때문에, CWE는 자연스럽게 단어의 의미 해석(Word Sense Disambiguation, WSD)을 모델링하는 기능을 내재하고 있다. 본 연구에서는 CWE 기반의 최근접 이웃 분류(nearest neighbor classification)를 활용한 간단하면서도 효과적인 WSD 접근법을 제안한다. 다양한 CWE 모델의 성능을 비교한 결과, 두 가지 표준 WSD 벤치마크 데이터셋에서 기존 최고 성능을 상회하는 개선 결과를 보고할 수 있었다. 또한, 사전 학습된 BERT 모델이 다의어 단어를 임베딩 공간 내에서 명확한 ‘의미 영역’으로 구분할 수 있는 반면, ELMo와 Flair NLP는 이러한 능력을 보이지 않는다는 점을 추가로 입증하였다.