HyperAIHyperAI
il y a 17 jours

L'apprentissage auto-supervisé avec des augmentations de données isole rigoureusement le contenu du style

Julius von Kügelgen, Yash Sharma, Luigi Gresele, Wieland Brendel, Bernhard Schölkopf, Michel Besserve, Francesco Locatello
L'apprentissage auto-supervisé avec des augmentations de données isole rigoureusement le contenu du style
Résumé

L’apprentissage de représentations auto-supervisé a fait preuve d’un succès remarquable dans de nombreux domaines. Une pratique courante consiste à appliquer des augmentations de données à l’aide de transformations manuellement conçues, dont le but est de préserver l’infrastructure sémantique des données. Nous cherchons à comprendre, du point de vue théorique, le succès empirique de cette approche. Nous formulons le processus d’augmentation comme un modèle à variables latentes en postulant une partition de la représentation latente en deux composantes : une composante « contenu », supposée invariante par rapport aux augmentations, et une composante « style », pouvant quant à elle varier. Contrairement aux travaux antérieurs sur la décomposition disentanglée ou l’analyse en composantes indépendantes, nous autorisons à la fois des dépendances statistiques non triviales et des dépendances causales dans l’espace latente. Nous étudions l’identifiabilité de la représentation latente à partir de paires de vues des observations, et démontrons des conditions suffisantes permettant d’identifier la partition invariante du contenu, à une application inversible près, dans les cadres génératif et discriminatif. Nos simulations numériques, menées avec des variables latentes dépendantes, sont cohérentes avec la théorie développée. Enfin, nous introduisons Causal3DIdent, un jeu de données composé d’images haute dimensionnelles et visuellement complexes, présentant des dépendances causales riches, que nous utilisons pour étudier l’effet des augmentations de données appliquées en pratique.