
최근 연구들은 시퀀스 작업에서 트랜스포머 아키텍처의 강점을 강조하면서, 동시에 신경망 아키텍처 탐색(Neural Architecture Search, NAS)이 인간이 설계한 모델을 능가하기 시작했습니다. 우리의 목표는 NAS를 적용하여 트랜스포머의 더 나은 대안을 찾는 것입니다. 먼저, 최근의 피드포워드 시퀀스 모델 발전에 영감을 받아 큰 탐색 공간을 구축한 후, 초기 집단에 트랜스포머를 씨앗으로 사용하여 전달 학습(warm starting)을 통해 진화적 아키텍처 탐색을 수행합니다. 계산적으로 비용이 많이 드는 WMT 2014 영어-독일어 번역 작업에서 직접 탐색하기 위해, 우리는 프로그레시브 다이나믹 허들(Progressive Dynamic Hurdles) 방법을 개발하여 더 유망한 후보 모델에 더 많은 자원을 동적으로 할당할 수 있도록 하였습니다. 실험에서 발견된 아키텍처인 진화된 트랜스포머(Evolved Transformer)는 네 가지 잘 알려진 언어 작업(WMT 2014 영어-독일어, WMT 2014 영어-프랑스어, WMT 2014 영어-체코어 및 LM1B)에서 트랜스포머보다 일관성 있는 개선을 보여주었습니다. 큰 모델 크기에서는 진화된 트랜스포머가 WMT'14 영어-독일어에서 새로운 최고 BLEU 점수인 29.8를 기록하였으며, 작은 크기에서는 원래 "큰" 트랜스포머보다 37.6% 적은 매개변수로 같은 성능을 달성하고, 모바일 친화적인 7M 매개변수 크기에서는 트랜스포머보다 0.7 BLEU 점수를 높이는 성과를 거두었습니다.