vor 17 Tagen

NAS-OoD: Neural Architecture Search für Out-of-Distribution-Verallgemeinerung

Haoyue Bai, Fengwei Zhou, Lanqing Hong, Nanyang Ye, S.-H. Gary Chan, Zhenguo Li

Abstract

Neuere Fortschritte im Bereich der Out-of-Distribution-(OoD)-Generalisierung haben die Robustheit tiefer Lernmodelle gegenüber Verteilungsverschiebungen aufgezeigt. Allerdings konzentrieren sich bestehende Ansätze primär auf OoD-Algorithmen wie Invariant Risk Minimierung, Domain Generalization oder stabiles Lernen, ohne die Auswirkung tiefer Modellarchitekturen auf die OoD-Generalisierung zu berücksichtigen, was zu suboptimalen Leistungen führen kann. Neural Architecture Search-(NAS)-Methoden suchen Architekturen basierend auf deren Leistung auf Trainingsdaten, was eine schlechte Generalisierungsfähigkeit für OoD-Aufgaben nach sich ziehen kann. In dieser Arbeit stellen wir robuste Neural Architecture Search für OoD-Generalisierung (NAS-OoD) vor, die die Architektur durch Gradientenabstieg bezüglich ihrer Leistung auf synthetisch generierten OoD-Daten optimiert. Konkret wird ein Datengenerator gelernt, um OoD-Daten zu synthetisieren, indem die Verluste, die von verschiedenen neuronalen Architekturen berechnet werden, maximiert werden. Gleichzeitig zielt die Architektursuche darauf ab, die optimalen Architekturparameter zu finden, die die Verluste auf den synthetischen OoD-Daten minimieren. Der Datengenerator und die neuronale Architektur werden dabei end-to-end gemeinsam optimiert, und der Minimax-Trainingsprozess ermöglicht effektiv die Entdeckung robuster Architekturen, die sich gut auf unterschiedliche Verteilungsverschiebungen generalisieren. Ausführliche experimentelle Ergebnisse zeigen, dass NAS-OoD auf verschiedenen OoD-Generalisierungsbenchmarks eine überlegene Leistung erzielt, wobei die tiefen Modelle nur eine deutlich geringere Anzahl an Parametern benötigen. Zudem reduziert die vorgeschlagene NAS-OoD-Methode auf einem realen Industriedatensatz die Fehlerrate um mehr als 70 % gegenüber dem Stand der Technik, was die praktische Relevanz des Ansatzes für reale Anwendungen belegt.