HyperAIHyperAI
vor 11 Tagen

Richtlinien zur Regularisierung von Gammas in der Batch-Normalisierung für tiefe Residual-Netzwerke

Bum Jun Kim, Hyeyeon Choi, Hyeonah Jang, Dong Gu Lee, Wonseok Jeong, Sang Woo Kim
Richtlinien zur Regularisierung von Gammas in der Batch-Normalisierung für tiefe Residual-Netzwerke
Abstract

Die L2-Regularisierung für Gewichte in neuronalen Netzen wird weithin als Standardverfahren bei der Trainingsphase eingesetzt. Die Anwendung der L2-Regularisierung auf Gamma, einen trainierbaren Parameter der Batch-Normalisierung, bleibt jedoch ein unerklärtes Phänomen und wird je nach Bibliothek und Praktiker unterschiedlich gehandhabt. In diesem Artikel untersuchen wir, ob die L2-Regularisierung für Gamma tatsächlich sinnvoll ist. Um dieses Problem zu erforschen, betrachten wir zwei Ansätze: 1) die Steuerung der Varianz, um das Residual-Netzwerk wie eine Identitätsabbildung verhalten zu lassen, und 2) eine stabile Optimierung durch Verbesserung der effektiven Lernrate. Durch zwei analytische Betrachtungen identifizieren wir diejenigen Gamma-Werte, die einer L2-Regularisierung förderlich oder schädlich sind, und leiten vier Leitlinien zur angemessenen Handhabung ab. In mehreren Experimenten beobachten wir sowohl Leistungssteigerungen als auch -einbußen durch die Anwendung der L2-Regularisierung auf Gamma verschiedener Kategorien, was mit unseren vier Leitlinien übereinstimmt. Unsere vorgeschlagenen Leitlinien werden durch verschiedene Aufgaben und Architekturen validiert, darunter Varianten von Residual-Netzen und Transformers.

Richtlinien zur Regularisierung von Gammas in der Batch-Normalisierung für tiefe Residual-Netzwerke | Neueste Forschungsarbeiten | HyperAI