17일 전
픽셀을 활용한 언어 모델링
Phillip Rust, Jonas F. Lotz, Emanuele Bugliarello, Elizabeth Salesky, Miryam de Lhoneux, Desmond Elliott

초록
언어 모델은 유한한 입력 집합 위에서 정의되며, 지원하는 언어 수를 확장하려 할 때 이로 인해 어휘 흐름(bottleneck)이 발생한다. 이 흐름을 해결하려는 시도는 임베딩 행렬에서 표현할 수 있는 내용과 출력층의 계산적 문제 사이의 트레이드오프를 초래한다. 본 논문은 이러한 두 가지 문제를 모두 겪지 않는 PIXEL, 즉 '언어의 픽셀 기반 인코더(Pixel-based Encoder of Language)'를 제안한다. PIXEL은 텍스트를 이미지로 변환하는 사전 훈련된 언어 모델로, 문자 체계적 유사성 또는 픽셀의 동시 활성화를 기반으로 언어 간 표현을 전이할 수 있다. PIXEL은 토큰 분포를 예측하는 대신 마스킹된 패치의 픽셀을 재구성하도록 훈련된다. 우리는 BERT와 동일한 영어 데이터셋을 사용하여 86M 파라미터의 PIXEL 모델을 사전 훈련하고, 다양한 비라틴 문자 체계를 포함한 다양한 문법적·의미적 언어 유형에 대해 구문 및 의미 처리 과제를 평가한다. 실험 결과, 사전 훈련 데이터에 포함되지 않은 문자 체계에 대해 PIXEL은 구문 및 의미 처리 과제에서 BERT를 상당히 능가하지만, 라틴 문자 체계에서는 BERT에 비해 약간 낮은 성능을 보인다. 또한, PIXEL은 문자 체계적 공격과 언어 혼용(linguistic code-switching)에 대해 BERT보다 더 강건함을 확인하였으며, 이는 픽셀 기반으로 언어를 모델링하는 것이 실제로 유리함을 더욱 확인시켜 준다.