7일 전

사전 훈련된 언어 모델을 신경망 기반 기계 번역에 통합하기

Soon-Jae Hwang, Chang-Sung Jeong
사전 훈련된 언어 모델을 신경망 기반 기계 번역에 통합하기
초록

신경망 기반 기계 번역(Neural Machine Translation, NMT)은 광범위한 연구와 개발을 통해 자연어 처리 분야에서 중요한 기술로 자리 잡았다. 그러나 고품질의 이중 언어 쌍 데이터의 부족은 여전히 NMT 성능 향상에 있어 주요 과제로 남아 있다. 최근 연구들은 사전 훈련된 언어 모델(Pre-trained Language Model, PLM)로부터의 문맥 정보를 활용하여 이 문제를 해결하려는 시도를 하고 있다. 그러나 PLM과 NMT 모델 간의 호환성 문제는 여전히 해결되지 않은 채로 남아 있다. 본 연구는 이러한 문제를 극복하기 위해 PLM 통합형 NMT(PiNMT) 모델을 제안한다. PiNMT 모델은 PLM 다층 변환기(PLM Multi Layer Converter), 임베딩 융합(Embedding Fusion), 코사인 정렬(Cosine Alignment)의 세 가지 핵심 구성 요소로 구성되며, 각 요소는 NMT 모델에 효과적인 PLM 정보를 제공하는 데 핵심적인 역할을 한다. 또한 본 논문에서는 별도의 학습률(Separate Learning Rates)과 이중 단계 훈련(Dual Step Training)이라는 두 가지 훈련 전략을 도입한다. 제안된 PiNMT 모델과 훈련 전략을 적용함으로써, IWSLT'14 En↔De 데이터셋에서 최신 기술 수준(SOTA)의 성능을 달성하였다. 본 연구의 성과는 PLM과 NMT를 효율적으로 통합하여 호환성 문제를 해결하고 성능을 향상시키는 새로운 접근 방식을 제시한다는 점에서 의미가 크다.

사전 훈련된 언어 모델을 신경망 기반 기계 번역에 통합하기 | 최신 연구 논문 | HyperAI초신경