HyperAIHyperAI
vor 17 Tagen

Verständnis und Verbesserung der Layer-Normalisierung

Jingjing Xu, Xu Sun, Zhiyuan Zhang, Guangxiang Zhao, Junyang Lin
Verständnis und Verbesserung der Layer-Normalisierung
Abstract

Layer Normalization (LayerNorm) ist eine Technik zur Normalisierung der Verteilungen von Zwischenschichten. Sie ermöglicht glattere Gradienten, schnellere Training und eine bessere Generalisierungsleistung. Dennoch ist unklar, worin genau ihre Wirksamkeit begründet liegt. In diesem Artikel leisten wir einen wesentlichen Beitrag zur tieferen Verständnis von LayerNorm. Viele vorherige Studien gehen davon aus, dass der Erfolg von LayerNorm auf der Vorwärtsnormalisierung beruht. Im Gegensatz dazu zeigen wir, dass die Ableitungen des Mittelwerts und der Varianz – insbesondere durch die Re-Zentrierung und Re-Skalierung der Rückwärts-Gradienten – entscheidender sind als die Vorwärtsnormalisierung selbst. Darüber hinaus stellen wir fest, dass die Parameter von LayerNorm, insbesondere der Bias und der Gain, das Überanpassungsrisiko erhöhen und in den meisten Fällen keine nennenswerte Verbesserung bringen. Experimente zeigen, dass eine vereinfachte Variante von LayerNorm (LayerNorm-simple), die auf Bias und Gain verzichtet, auf vier Datensätzen die Leistung von LayerNorm übertrifft und sogar die state-of-the-art Ergebnisse für die maschinelle Übersetzung von Englisch nach Vietnamesisch erzielt. Um das Problem der Überanpassung zu adressieren, schlagen wir eine neue Normalisierungsmethode vor: Adaptive Normalization (AdaNorm), bei der der Bias und der Gain durch eine neue Transformationsfunktion ersetzt werden. Experimente belegen, dass AdaNorm auf sieben von acht Datensätzen eine bessere Leistung als LayerNorm erzielt.

Verständnis und Verbesserung der Layer-Normalisierung | Neueste Forschungsarbeiten | HyperAI