2달 전

두 세계의 최고를 결합하다: 신경망 기계 번역의 최근 발전을 통합하기

Mia Xu Chen; Orhan Firat; Ankur Bapna; Melvin Johnson; Wolfgang Macherey; George Foster; Llion Jones; Niki Parmar; Mike Schuster; Zhifeng Chen; Yonghui Wu; Macduff Hughes
두 세계의 최고를 결합하다: 신경망 기계 번역의 최근 발전을 통합하기
초록

지난 1년 동안 시퀀스-투-시퀀스(seq2seq) 모델링이 기계 번역(MT) 분야에서 급속한 발전을 이루어냈습니다. 전통적인 RNN 기반의 MT 접근법은 처음으로 컨볼루션 seq2seq 모델에 의해 능가되었으며, 이는 이후 최근의 트랜스포머(Transformer) 모델에 의해 다시 한 번 능가되었습니다. 이러한 새로운 접근법 각각은 기본 아키텍처와 함께 적용 원칙상 다른 seq2seq 아키텍처에도 적용할 수 있는 여러 모델링 및 학습 기술로 구성되어 있습니다. 본 논문에서는 두 가지 방식으로 새로운 아키텍처와 그에 수반되는 기술을 분리하여 연구합니다. 첫째, 몇 가지 주요 모델링 및 학습 기술을 식별하고 이를 RNN 아키텍처에 적용하여 WMT'14 영어-프랑스어 및 영어-독일어 벤치마크 작업에서 세 가지 기본 아키텍처 모두를 능가하는 새로운 RNMT+ 모델을 생성하였습니다. 둘째, 각 기본 seq2seq 아키텍처의 특성을 분석하고 그 장점을 결합하기 위한 새로운 하이브리드 아키텍처를 설계하였습니다. 우리의 하이브리드 모델은 추가적인 개선을 이루어내며, 두 벤치마크 데이터셋에서 모두 RNMT+ 모델을 능가하는 성능을 보였습니다.

두 세계의 최고를 결합하다: 신경망 기계 번역의 최근 발전을 통합하기 | 최신 연구 논문 | HyperAI초신경