Apprentissage d'une représentation d'image continue à l'aide d'une fonction implicite locale pour l'image

Comment représenter une image ? Alors que le monde visuel est perçu de manière continue, les machines stockent et traitent les images de façon discrète, sous forme de tableaux bidimensionnels de pixels. Dans cet article, nous cherchons à apprendre une représentation continue des images. Inspirés des récents progrès réalisés en reconstruction 3D à l’aide de représentations neurales implicites, nous proposons une fonction d’image implicite locale (LIIF), qui prend comme entrée une coordonnée d’image ainsi que les caractéristiques profondes 2D avoisinantes, et prédit comme sortie la valeur RGB à une coordonnée donnée. Étant donné que les coordonnées sont continues, LIIF peut être représentée à une résolution arbitraire. Pour générer une représentation continue des images, nous entraînons un encodeur utilisant la représentation LIIF via une tâche auto-supervisée de super-résolution. La représentation continue apprise peut être rendue à une résolution arbitraire, y compris extrapolée jusqu’à une résolution 30 fois supérieure à celle utilisée lors de l’entraînement, où aucune donnée n’était disponible. Nous montrons également que la représentation LIIF établit un pont entre les représentations discrètes et continues en 2D, permettant naturellement l’apprentissage sur des vérités terrain à tailles variables, et surpassant significativement les méthodes basées sur le redimensionnement des vérités terrain.