Apprendre le jeu de Mandelbrot à un réseau de neurones grâce aux features de Fourier
Cet article explore la capacité d’un réseau de neurones à apprendre l’ensemble de Mandelbrot, un des objets mathématiques les plus complexes et beaux, caractérisé par une structure fractale infinie. Bien que l’ensemble soit déterministe et sans bruit, il constitue un excellent terrain d’expérimentation pour étudier les limites des réseaux de neurones, notamment leur difficulté à modéliser des fonctions à haute fréquence. L’approche repose sur une reformulation du problème : au lieu d’un classificateur binaire, on transforme l’ensemble en un problème de régression sur une fonction lisse, l’« échappement lissé » (smooth escape-time), qui associe à chaque point du plan complexe une valeur continue entre 0 et 1, proportionnelle au nombre d’itérations avant que la suite ne diverge, avec une échelle logarithmique pour équilibrer la distribution. Le dataset est conçu de manière intelligente : il combine des échantillons uniformes et une sur-échantillonnage des régions proches de la frontière, où la structure est la plus riche, en sélectionnant les points dont la valeur d’échappement se situe dans une bande (0,35–0,95). Cette stratégie permet d’optimiser l’efficacité d’apprentissage en concentrant les données là où elles sont le plus utiles. Deux modèles sont comparés. Le premier est un réseau de neurones profond (MLP résiduel) avec des couches de 256 neurones, 8 blocs résiduels, et une normalisation par couche, entraîné sur les coordonnées brutes (x, y). Le second utilise des features de Fourier gaussiennes multi-échelle pour encoder les entrées, transformant les coordonnées en une projection sinusoidale sur des fréquences aléatoires, ce qui permet au réseau de représenter plus facilement des détails à haute fréquence. Résultat : le modèle basique, malgré sa profondeur et sa capacité, ne parvient qu’à reproduire la forme globale de l’ensemble, avec des bords flous et des filaments fins mal définis. En revanche, le modèle avec features de Fourier apprend progressivement, d’abord les structures grossières, puis les détails de plus en plus fins, jusqu’à reconstruire des filaments subtils et des motifs auto-similaires proches de l’image exacte. Ce phénomène illustre le biais spectral : les réseaux de neurones apprennent d’abord les variations lentes (basses fréquences) et peinent à capturer les détails rapides, sauf si l’entrée est prétraitée pour en faire ressortir la structure fréquentielle. L’usage de features de Fourier multi-échelle (avec des écarts-types 2, 6 et 5) est clé : il fournit au réseau une base de fréquences à plusieurs échelles, parfaitement alignée avec la nature auto-similaire des fractales. Cela ne change pas l’architecture, mais transforme profondément la représentation des données, permettant à un modèle simple d’atteindre des performances étonnantes. En conclusion, cette expérience démontre que la limitation n’est pas technique (capacité, données, optimisation), mais représentationnelle. Le choix de l’encodage des entrées est déterminant. Cette idée s’applique bien au-delà des fractales : en infographie, en apprentissage physique ou en traitement de signaux, l’encodage des coordonnées peut faire la différence entre une approximation lisse et une reconstruction riche en détails. Les visuels et animations sont générés directement à partir des sorties des modèles, sans recours à des moteurs de rendu externes, et le code complet est disponible sur GitHub. Évaluation : Les experts en apprentissage profond saluent cette approche comme une démonstration claire du pouvoir des encodages d’entrée, notamment les features de Fourier, pour surmonter les limites fondamentales des réseaux de neurones. L’article est un exemple pédagogique et technique de pointe, illustrant que l’ingénierie des données peut parfois être plus cruciale que l’architecture. Les entreprises comme NVIDIA, Google Research ou Meta, actives dans les réseaux de neurones pour la synthèse d’images, s’appuient sur des idées similaires dans leurs travaux sur les Neural Radiance Fields (NeRF) et les modèles de génération de hautes résolutions.
