Der Evolierte Transformer

Kürzliche Arbeiten haben die Stärke der Transformer-Architektur bei sequenziellen Aufgaben hervorgehoben, während gleichzeitig neuronale Architektursuche (NAS) anfängt, menschlich entwickelte Modelle zu übertreffen. Unser Ziel ist es, NAS anzuwenden, um eine bessere Alternative zum Transformer zu finden. Zunächst konstruieren wir einen großen Suchraum, inspiriert von den jüngsten Fortschritten in feedforward-Sequenzmodellen, und führen dann eine evolutionäre Architektursuche mit Warm-Starting durch, indem wir unsere anfängliche Population mit dem Transformer belegen. Um direkt auf der rechenintensiven Übersetzungs-Aufgabe WMT 2014 Englisch-Deutsch zu suchen, entwickeln wir die Methode der Progressiven Dynamischen Hindernisse, die es uns ermöglicht, mehr Ressourcen dynamisch vielversprechenderen Kandidatmodellen zuzuweisen. Die in unseren Experimenten gefundenen Architekturen – der Evolierte Transformer – zeigen konsistente Verbesserungen des Transformers bei vier etablierten Sprachaufgaben: WMT 2014 Englisch-Deutsch, WMT 2014 Englisch-Französisch, WMT 2014 Englisch-Tschechisch und LM1B. Bei einer großen Modellgröße erreicht der Evolierte Transformer einen neuen Stand der Technik in Form eines BLEU-Scores von 29.8 für WMT'14 Englisch-Deutsch; bei kleineren Größen erreicht er dieselbe Qualität wie der originale „große“ Transformer mit 37.6 % weniger Parametern und übertrifft den Transformer um 0.7 BLEU bei einer mobilen Modellgröße von 7 Millionen Parametern.