사전 훈련된 언어 모델을 N-그램 표현으로 제어하여 저자원 도메인 적응에 활용하기

BERT와 같은 대규모 사전 학습 모델은 일반 도메인에서 학습된 경우에도 다양한 하류 NLP 작업에서 성능 향상을 보이는 것으로 알려져 있다. 또한 최근 연구들은 특정 도메인의 대규모 코퍼스가 존재할 경우, 해당 도메인 데이터를 기반으로 지속적인 사전 학습을 수행함으로써 도메인 내 작업의 성능을 추가로 향상시킬 수 있음을 보여주었다. 그러나 이러한 접근은 상당한 도메인 특화 데이터와 계산 자원을 요구하며, 항상 가용할 수 있는 것은 아니다. 본 논문에서는 상대적으로 적은 양의 도메인 특화 데이터를 이용하여 일반 사전 학습 모델을 적응시키는 것을 목표로 한다. 우리는 비특화된 단어와 도메인 특화 단어의 다중 분할(granularity) 정보를 (단어 기반) n-그램을 통해 명시적으로 통합함으로써, 일반 사전 학습 모델의 성능을 크게 향상시킬 수 있음을 입증한다. 구체적으로, 새로운 도메인 내 단어 조합의 의미 표현을 효과적으로 학습하고 통합하기 위해, Transformer 기반의 도메인 인식형 n-그램 적응기인 T-DNA를 제안한다. 실험 결과는 T-DNA가 네 가지 도메인에서의 여덟 가지 저자원 하류 작업에서 효과적임을 보여준다. T-DNA는 제한된 데이터와 낮은 계산 비용으로 기존 방법에 비해 대부분의 작업에서 유의미한 성능 향상을 달성할 수 있음을 보여준다. 또한 추가적인 분석을 통해, 미등장 단어와 다양한 분할 수준의 정보가 모두 중요하고 효과적임을 입증한다. 본 논문의 코드는 https://github.com/shizhediao/T-DNA 에서 공개되어 있다.