HyperAIHyperAI

Command Palette

Search for a command to run...

Der Evolierte Transformer

David R. So Chen Liang Quoc V. Le

Zusammenfassung

Kürzliche Arbeiten haben die Stärke der Transformer-Architektur bei sequenziellen Aufgaben hervorgehoben, während gleichzeitig neuronale Architektursuche (NAS) anfängt, menschlich entwickelte Modelle zu übertreffen. Unser Ziel ist es, NAS anzuwenden, um eine bessere Alternative zum Transformer zu finden. Zunächst konstruieren wir einen großen Suchraum, inspiriert von den jüngsten Fortschritten in feedforward-Sequenzmodellen, und führen dann eine evolutionäre Architektursuche mit Warm-Starting durch, indem wir unsere anfängliche Population mit dem Transformer belegen. Um direkt auf der rechenintensiven Übersetzungs-Aufgabe WMT 2014 Englisch-Deutsch zu suchen, entwickeln wir die Methode der Progressiven Dynamischen Hindernisse, die es uns ermöglicht, mehr Ressourcen dynamisch vielversprechenderen Kandidatmodellen zuzuweisen. Die in unseren Experimenten gefundenen Architekturen – der Evolierte Transformer – zeigen konsistente Verbesserungen des Transformers bei vier etablierten Sprachaufgaben: WMT 2014 Englisch-Deutsch, WMT 2014 Englisch-Französisch, WMT 2014 Englisch-Tschechisch und LM1B. Bei einer großen Modellgröße erreicht der Evolierte Transformer einen neuen Stand der Technik in Form eines BLEU-Scores von 29.8 für WMT'14 Englisch-Deutsch; bei kleineren Größen erreicht er dieselbe Qualität wie der originale „große“ Transformer mit 37.6 % weniger Parametern und übertrifft den Transformer um 0.7 BLEU bei einer mobilen Modellgröße von 7 Millionen Parametern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Der Evolierte Transformer | Paper | HyperAI