HyperAIHyperAI
vor 18 Tagen

Achten Sie auf MLPs

Hanxiao Liu, Zihang Dai, David R. So, Quoc V. Le
Achten Sie auf MLPs
Abstract

Transformers sind in den letzten Jahren zu einer der bedeutendsten architektonischen Innovationen im Bereich des tiefen Lernens geworden und haben zahlreiche Durchbrüche ermöglicht. In diesem Beitrag stellen wir eine einfache Netzarchitektur, gMLP, basierend auf MLPs mit Gating vor, und zeigen, dass sie in zentralen Sprach- und Bildanwendungen die Leistung von Transformers erreicht. Unsere Vergleiche zeigen, dass Selbst-Attention für Vision Transformers nicht entscheidend ist, da gMLP dieselbe Genauigkeit erzielt. Für BERT erreicht unser Modell eine gleichwertige Präzision bei der Vortrainings-Perplexität im Vergleich zu Transformers und übertrifft diese bei einigen Downstream-Aufgaben im Bereich der natürlichen Sprachverarbeitung. Auf Feinabstimmungsaufgaben, auf denen gMLP schlechter abschneidet, kann die Leistung durch eine erhebliche Vergrößerung des gMLP-Modells nahe an die von Transformers heranführen. Insgesamt zeigen unsere Experimente, dass gMLP ebenso gut wie Transformers mit zunehmender Datenmenge und Rechenleistung skaliert.