HyperAIHyperAI

Command Palette

Search for a command to run...

Richtlinien zur Regularisierung von Gammas in der Batch-Normalisierung für tiefe Residual-Netzwerke

Bum Jun Kim Hyeyeon Choi Hyeonah Jang Dong Gu Lee Wonseok Jeong Sang Woo Kim

Zusammenfassung

Die L2-Regularisierung für Gewichte in neuronalen Netzen wird weithin als Standardverfahren bei der Trainingsphase eingesetzt. Die Anwendung der L2-Regularisierung auf Gamma, einen trainierbaren Parameter der Batch-Normalisierung, bleibt jedoch ein unerklärtes Phänomen und wird je nach Bibliothek und Praktiker unterschiedlich gehandhabt. In diesem Artikel untersuchen wir, ob die L2-Regularisierung für Gamma tatsächlich sinnvoll ist. Um dieses Problem zu erforschen, betrachten wir zwei Ansätze: 1) die Steuerung der Varianz, um das Residual-Netzwerk wie eine Identitätsabbildung verhalten zu lassen, und 2) eine stabile Optimierung durch Verbesserung der effektiven Lernrate. Durch zwei analytische Betrachtungen identifizieren wir diejenigen Gamma-Werte, die einer L2-Regularisierung förderlich oder schädlich sind, und leiten vier Leitlinien zur angemessenen Handhabung ab. In mehreren Experimenten beobachten wir sowohl Leistungssteigerungen als auch -einbußen durch die Anwendung der L2-Regularisierung auf Gamma verschiedener Kategorien, was mit unseren vier Leitlinien übereinstimmt. Unsere vorgeschlagenen Leitlinien werden durch verschiedene Aufgaben und Architekturen validiert, darunter Varianten von Residual-Netzen und Transformers.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Richtlinien zur Regularisierung von Gammas in der Batch-Normalisierung für tiefe Residual-Netzwerke | Paper | HyperAI