17일 전

BERT, mBERT, 또는 BiBERT? 신경 기계 번역을 위한 문맥 기반 임베딩에 관한 연구

Haoran Xu, Benjamin Van Durme, Kenton Murray
BERT, mBERT, 또는 BiBERT? 신경 기계 번역을 위한 문맥 기반 임베딩에 관한 연구
초록

마스크된 언어 모델을 활용한 양방향 인코더, 예를 들어 BERT의 수많은 자연어 처리 과제에서의 성공은 연구자들이 이러한 사전 훈련된 모델을 신경망 기반 기계 번역(NMT) 시스템에 통합해보려는 시도를 촉발시켰다. 그러나 기존에 제안된 사전 훈련된 모델 통합 방법은 비선형적이며, 주로 BERT에 집중되어 있어 다른 사전 훈련된 모델이 번역 성능에 미치는 영향에 대한 비교가 부족한 실정이다. 본 논문에서는, 적절하게 설계된 이중 언어 사전 훈련된 언어 모델(BiBERT)의 출력(맥락 기반 임베딩)을 NMT 인코더의 입력으로 단순히 사용하는 것만으로도 최신 기술 수준의 번역 성능을 달성할 수 있음을 입증한다. 또한, 맥락 기반 임베딩의 충분한 활용을 보장하기 위해 확률적 레이어 선택 방법과 이중 방향 번역 모델의 개념을 제안한다. 백 번역(back translation)을 사용하지 않은 경우, 최적의 모델은 IWSLT’14 데이터셋에서 En→De 번역 시 BLEU 점수 30.45, De→En 번역 시 38.61을 기록하였으며, WMT’14 데이터셋에서는 En→De 31.26, De→En 34.94의 점수를 달성하여, 기존에 발표된 모든 성능 수치를 초과하였다.

BERT, mBERT, 또는 BiBERT? 신경 기계 번역을 위한 문맥 기반 임베딩에 관한 연구 | 최신 연구 논문 | HyperAI초신경