16일 전

사전 훈련된 언어 모델로부터 얻은 문장 임베딩

Bohan Li, Hao Zhou, Junxian He, Mingxuan Wang, Yiming Yang, Lei Li
사전 훈련된 언어 모델로부터 얻은 문장 임베딩
초록

BERT와 같은 사전 훈련된 문맥 표현은 자연어 처리 분야에서 큰 성공을 거두었다. 그러나 사전 훈련된 언어 모델에서 미세조정 없이 얻은 문장 임베딩은 문장의 의미를 충분히 포착하지 못한다는 점이 밝혀졌다. 본 논문에서는 BERT 임베딩 내에 포함된 의미 정보가 충분히 활용되지 않고 있음을 주장한다. 먼저, 마스킹된 언어 모델 사전 훈련 목표와 의미 유사도 작업 사이의 이론적 연관성을 제시한 후, BERT 문장 임베딩을 실증적으로 분석한다. 분석 결과, BERT는 항상 비부드럽고 비이방성(아니소트로피)적인 문장 의미 공간을 유도함을 발견하였으며, 이는 의미 유사도 성능에 악영향을 미친다. 이러한 문제를 해결하기 위해, 비지도 목적 함수를 통해 학습된 정규화 흐름(normalizing flows)을 이용하여 비이방성 문장 임베딩 분포를 부드럽고 이방성(이소트로피)적인 가우시안 분포로 변환하는 방법을 제안한다. 실험 결과, 제안하는 BERT-flow 방법은 다양한 의미적 텍스트 유사도 작업에서 최첨단 문장 임베딩 기법보다 유의미한 성능 향상을 달성하였다. 코드는 https://github.com/bohanli/BERT-flow 에서 공개되어 있다.

사전 훈련된 언어 모델로부터 얻은 문장 임베딩 | 최신 연구 논문 | HyperAI초신경