Recombinaison amplitude-phase : Repenser la robustesse des réseaux de neurones convolutionnels dans le domaine fréquentiel

Récemment, le comportement de généralisation des réseaux de neurones convolutifs (CNN) devient progressivement compréhensible grâce à des techniques d’explication basées sur la décomposition en composantes fréquentielles. Toutefois, l’importance du spectre de phase des images pour un système visuel robuste reste largement ignorée. Dans ce travail, nous observons que les CNN ont tendance à converger vers un optimum local étroitement lié aux composantes haute fréquence des images d’entraînement, tandis que le spectre d’amplitude est facilement perturbé par des bruits ou des dégradations courantes. En contraste, des études empiriques montrent que les êtres humains s’appuient davantage sur les composantes de phase pour assurer une reconnaissance robuste. Cette observation permet d’offrir de nouvelles explications concernant le comportement de généralisation des CNN, tant en matière de robustesse face aux perturbations courantes qu’en détection d’images hors distribution, et inspire une nouvelle perspective pour la conception d’augmentation de données : elle consiste à recombiner le spectre de phase de l’image courante avec le spectre d’amplitude d’une image perturbatrice. Les échantillons ainsi générés obligent le CNN à accorder une attention accrue aux informations structurées provenant du spectre de phase, tout en maintenant une robustesse face aux variations du spectre d’amplitude. Des expériences menées sur plusieurs jeux de données d’images montrent que la méthode proposée atteint des performances de pointe sur diverses tâches de généralisation et de calibration, notamment l’adaptabilité aux dégradations courantes et aux variations de surface, la détection d’images hors distribution, ainsi que la résistance aux attaques adversariales.