4달 전

신경 기계 번역의 확장

Myle Ott; Sergey Edunov; David Grangier; Michael Auli
신경 기계 번역의 확장
초록

시퀀스 투 시퀀스 학습 모델은 여전히 단일 머신을 사용하여 대규모 벤치마크 데이터셋에서 최고 수준의 성능을 달성하는 데 며칠이 필요합니다. 본 논문에서는 정밀도를 낮추고 큰 배치 크기로 학습함으로써, 신중한 튜닝과 구현을 통해 단일 8-GPU 머신에서 학습 속도를 거의 5배 가속화할 수 있음을 보여줍니다. WMT'14 영어-독일어 번역 작업에서, 우리는 8개의 GPU를 사용하여 5시간 미만으로 Vaswani 등 (2017)의 정확도와 일치시키며, 128개의 GPU에서 85분 동안 학습한 후 새로운 최고 수준인 29.3 BLEU 점수를 얻었습니다. 또한 훨씬 더 큰 Paracrawl 데이터셋을 사용하여 학습함으로써 이 결과를 개선하여 29.8 BLEU 점수를 달성했습니다. WMT'14 영어-프랑스어 작업에서는 128개의 GPU에서 8.5시간 동안 학습하여 최고 수준인 43.2 BLEU 점수를 얻었습니다.