Generalisierungseigenschaften von NAS bei der Suche nach Aktivierungsfunktionen und Skip-Verbindungen

Neural Architecture Search (NAS) hat die automatische Entdeckung von state-of-the-art neuronalen Architekturen gefördert. Trotz der erreichten Fortschritte bei NAS wurde bisher nur wenig Aufmerksamkeit auf theoretische Garantien für NAS gelegt. In dieser Arbeit untersuchen wir die Generalisierungseigenschaften von NAS unter einem einheitlichen Rahmen, der die Suche nach (tiefen) Layer-Skip-Verbindungen und Aktivierungsfunktionen ermöglicht. Dazu leiten wir unter Verwendung eines bestimmten Suchraums, der gemischte Aktivierungsfunktionen, vollständig verbundene und Residual-Neuronale Netzwerke umfasst, unter (un)endlicher Breite die unteren (und oberen) Schranken des kleinsten Eigenwerts des Neural Tangent Kernel (NTK) her. Wir nutzen den kleinsten Eigenwert, um Generalisierungsfehlergrenzen von NAS im Kontext des stochastischen Gradientenabstiegs (SGD) herzuleiten. Wichtig ist, dass wir theoretisch und experimentell zeigen, wie die abgeleiteten Ergebnisse NAS dabei unterstützen können, architektonisch hochperformante Modelle auszuwählen – sogar ohne jegliches Training – und somit einen trainingsfreien Algorithmus auf Basis unserer Theorie ermöglichen. Dementsprechend liefert unsere numerische Validierung Einsichten für die Gestaltung rechenzeit-effizienter Methoden für NAS. Unsere Analyse ist aufgrund der Kopplung verschiedener Architekturen und Aktivierungsfunktionen innerhalb des einheitlichen Rahmens nicht trivial und hat eigenständiges Interesse, da sie eine untere Schranke für den kleinsten Eigenwert des NTK in der Theorie tiefer neuronalen Netze liefert.