il y a 18 jours

NAS-OoD : Recherche d'Architecture Neurale pour la Généralisation en dehors de la Distribution

Haoyue Bai, Fengwei Zhou, Lanqing Hong, Nanyang Ye, S.-H. Gary Chan, Zhenguo Li

Résumé

Les avancées récentes en généralisation hors distribution (OoD) mettent en évidence la robustesse des modèles d'apprentissage profond face aux décalages de distribution. Toutefois, les travaux existants se concentrent principalement sur des algorithmes OoD tels que la minimisation du risque invariant, la généralisation de domaine ou l'apprentissage stable, sans tenir compte de l'influence des architectures de modèles profonds sur la généralisation OoD, ce qui peut entraîner des performances sous-optimales. Les méthodes de recherche d'architecture neuronale (NAS) cherchent à identifier une architecture en se basant sur sa performance sur les données d'entraînement, ce qui peut conduire à une mauvaise généralisation sur des tâches OoD. Dans ce travail, nous proposons une recherche d'architecture neuronale robuste pour la généralisation OoD (NAS-OoD), qui optimise l'architecture en fonction de sa performance sur des données OoD synthétisées, via une descente de gradient. Plus précisément, un générateur de données est appris pour produire des données OoD en maximisant les pertes calculées par différentes architectures neuronales, tandis que l'objectif de la recherche d'architecture consiste à trouver les paramètres optimaux de l'architecture qui minimisent les pertes associées aux données OoD synthétisées. Le générateur de données et l'architecture neuronale sont optimisés conjointement de manière end-to-end, et le processus d'entraînement minimax permet efficacement de découvrir des architectures robustes capables de généraliser efficacement face à divers décalages de distribution. Des résultats expérimentaux étendus montrent que NAS-OoD atteint des performances supérieures sur divers benchmarks de généralisation OoD, avec des modèles profonds comportant un nombre bien plus réduit de paramètres. En outre, sur un jeu de données réel issu d'une application industrielle, la méthode proposée réduit le taux d'erreur de plus de 70 % par rapport à l'état de l'art, démontrant ainsi sa faisabilité pratique pour des applications réelles.