Représentations neuronales implicites polynomiales pour de grands jeux de données diversifiés

Les représentations neuronales implicites (INR) ont connu une popularité croissante pour la représentation de signaux et d’images dans diverses tâches finales, telles que la super-résolution, la modélisation 3D, etc. La plupart des architectures INR reposent sur une encodage positionnel sinusoidal, qui permet de capturer les informations à haute fréquence présentes dans les données. Toutefois, la taille finie de cet encodage limite la puissance de représentation du modèle. Une puissance de représentation accrue est nécessaire pour passer de la représentation d’une image unique à celle de jeux de données volumineux et diversifiés. Notre approche comble cette lacune en représentant une image à l’aide d’une fonction polynomiale, éliminant ainsi la nécessité d’encodages positionnels. Ainsi, pour atteindre progressivement un degré polynomial plus élevé, nous appliquons des multiplications élément par élément entre les caractéristiques et les coordonnées transformées affinement après chaque couche ReLU. La méthode proposée est évaluée qualitativement et quantitativement sur de grands jeux de données tels qu’ImageNet. Le modèle Poly-INR proposé atteint des performances comparables aux meilleurs modèles génératifs actuels, sans recourir à des couches de convolution, de normalisation ou d’attention auto-associative, et avec un nombre bien moindre de paramètres entraînables. Grâce à un nombre réduit de paramètres d’entraînement et à une puissance de représentation accrue, notre approche ouvre la voie à une adoption plus large des modèles INR pour les tâches de modélisation générative dans des domaines complexes. Le code est disponible à l’adresse suivante : \url{https://github.com/Rajhans0/Poly_INR}