Convolutions Aléatoires progressives pour la généralisation mono-domaine

La généralisation mono-domaine vise à former un modèle généralisable à partir d'un seul domaine source afin qu'il puisse bien performer sur des domaines cibles inconnus et arbitraires. L'augmentation d'image basée sur les Convolutions Aléatoires (RandConv), qui consiste en une couche de convolution initialisée aléatoirement pour chaque mini-batch, permet au modèle d'apprendre des représentations visuelles généralisables en déformant les textures locales malgré sa structure simple et légère. Cependant, RandConv présente des limitations structurelles : l'image générée perd facilement ses sémantiques lorsque la taille du noyau augmente, et elle manque de la diversité inhérente qu'une seule opération de convolution pourrait offrir. Pour résoudre ce problème, nous proposons une méthode de Convolutions Aléatoires Progressives (Pro-RandConv) qui empile récursivement des couches de convolution aléatoires avec une petite taille de noyau plutôt que d'augmenter la taille du noyau. Cette approche progressive peut non seulement atténuer les distorsions sémantiques en réduisant l'influence des pixels éloignés du centre dans le champ récepteur théorique, mais aussi créer des domaines virtuels plus efficaces en augmentant progressivement la diversité stylistique. De plus, nous avons développé une couche de convolution aléatoire de base en un bloc de convolution aléatoire incluant des décalages déformables et une transformation affine pour soutenir la diversification des textures et du contraste, tous deux étant également initialisés aléatoirement. Sans recourir à des générateurs complexes ou à un apprentissage antagoniste, nous démontrons que notre stratégie d'augmentation simple mais efficace surpasse les méthodes de pointe sur les bancs d'essai de généralisation mono-domaine.