한 달 전

진화된 트랜스포머

David R. So; Chen Liang; Quoc V. Le
진화된 트랜스포머
초록

최근 연구들은 시퀀스 작업에서 트랜스포머 아키텍처의 강점을 강조하면서, 동시에 신경망 아키텍처 탐색(Neural Architecture Search, NAS)이 인간이 설계한 모델을 능가하기 시작했습니다. 우리의 목표는 NAS를 적용하여 트랜스포머의 더 나은 대안을 찾는 것입니다. 먼저, 최근의 피드포워드 시퀀스 모델 발전에 영감을 받아 큰 탐색 공간을 구축한 후, 초기 집단에 트랜스포머를 씨앗으로 사용하여 전달 학습(warm starting)을 통해 진화적 아키텍처 탐색을 수행합니다. 계산적으로 비용이 많이 드는 WMT 2014 영어-독일어 번역 작업에서 직접 탐색하기 위해, 우리는 프로그레시브 다이나믹 허들(Progressive Dynamic Hurdles) 방법을 개발하여 더 유망한 후보 모델에 더 많은 자원을 동적으로 할당할 수 있도록 하였습니다. 실험에서 발견된 아키텍처인 진화된 트랜스포머(Evolved Transformer)는 네 가지 잘 알려진 언어 작업(WMT 2014 영어-독일어, WMT 2014 영어-프랑스어, WMT 2014 영어-체코어 및 LM1B)에서 트랜스포머보다 일관성 있는 개선을 보여주었습니다. 큰 모델 크기에서는 진화된 트랜스포머가 WMT'14 영어-독일어에서 새로운 최고 BLEU 점수인 29.8를 기록하였으며, 작은 크기에서는 원래 "큰" 트랜스포머보다 37.6% 적은 매개변수로 같은 성능을 달성하고, 모바일 친화적인 7M 매개변수 크기에서는 트랜스포머보다 0.7 BLEU 점수를 높이는 성과를 거두었습니다.