2달 전
Joint Source-Target Self Attention with Locality Constraints 로컬리티 제약을 적용한 소스-타겟 공동 자기 주의 기제
José A. R. Fonollosa; Noe Casas; Marta R. Costa-jussà

초록
주요 신경망 기계 번역 모델들은 인코더-디코더 구조를 기반으로 하며, 이들 중 많은 모델들이 소스 및 대상 시퀀스에 대한 제약이 없는 수용 영역을 활용합니다. 본 논문에서는 이러한 관례를 깨는 새로운 아키텍처를 연구합니다. 우리 제안하는 단순화된 아키텍처는 자기 주의(self-attention)에 기반한 트랜스포머 모델의 디코더 부분으로 구성되지만, 주의 수용 영역에 지역성 제약을 적용합니다. 훈련 입력으로서, 소스 문장과 대상 문장 모두 네트워크에 제공되며, 언어 모델로서 훈련됩니다. 추론 시에는 소스 시퀀스를 이전 토큰으로 시작하여 자동 회귀적으로 대상 토큰을 예측합니다. 제안된 모델은 IWSLT'14 독일어-영어 번역에서 35.7 BLEU 점수로 새로운 최고 성능을 달성하였으며, WMT'14 영어-독일어 및 WMT'14 영어-프랑스어 번역 벤치마크에서도 문헌에서 보고된 최고 결과와 일치하였습니다.