1 个月前

进化变压器

David R. So; Chen Liang; Quoc V. Le
进化变压器
摘要

近期的研究强调了Transformer架构在序列任务中的强大性能,同时神经架构搜索(Neural Architecture Search, NAS)也开始超越人类设计的模型。我们的目标是应用NAS来寻找比Transformer更好的替代方案。我们首先构建了一个大型搜索空间,该空间受到最近前馈序列模型进展的启发,然后通过预热启动(warm starting)的方法运行进化架构搜索,即以Transformer作为初始种群的种子。为了直接在计算成本高昂的WMT 2014英德翻译任务上进行搜索,我们开发了渐进动态障碍方法(Progressive Dynamic Hurdles),该方法允许我们将更多资源动态分配给更有潜力的候选模型。在实验中发现的架构——进化Transformer(Evolved Transformer)——在四个知名的语言任务上表现出了一致的改进:WMT 2014英德、WMT 2014英法、WMT 2014英捷和LM1B。在大模型规模下,进化Transformer在WMT 2014英德任务上取得了新的最佳BLEU分数29.8;而在较小规模下,它以减少37.6%参数的数量达到了与原始“大”Transformer相同的质量,并且在适合移动设备的7M参数模型规模下,其BLEU分数比Transformer高出0.7。