Réseaux de neurones convolutionnels métas pour la généralisation sur un seul domaine

Dans la généralisation à un seul domaine, les modèles entraînés uniquement sur des données provenant d’un seul domaine doivent parvenir à de bonnes performances sur de nombreux domaines inconnus. Dans cet article, nous proposons un nouveau modèle, appelé réseau de neurones convolutifs métas (meta convolutional neural network), afin de résoudre le problème de la généralisation à un seul domaine en reconnaissance d’images. L’idée centrale consiste à décomposer les caractéristiques convolutives des images en caractéristiques métas. Ces caractéristiques métas, qui agissent comme des « mots visuels », sont définies comme des éléments visuels universels et fondamentaux pour la représentation d’images (analogue aux mots dans la représentation des documents en langage naturel). En prenant les caractéristiques métas comme référence, nous proposons des opérations compositionnelles qui éliminent les caractéristiques non pertinentes des caractéristiques locales convolutives via un processus d’adressage, puis réforment les cartes de caractéristiques convolutives comme une composition de caractéristiques métas pertinentes. Ainsi, les images sont codées de manière universelle, sans information biaisée provenant du domaine inconnu, ce qui permet à des modules ultérieurs entraînés sur le domaine source de traiter efficacement ces représentations. Les opérations compositionnelles utilisent une technique d’analyse de régression pour apprendre les caractéristiques métas de manière itérative et en apprentissage par lots en ligne. Des expériences étendues sur plusieurs jeux de données standard confirment l’efficacité supérieure du modèle proposé dans l’amélioration de la capacité de généralisation à un seul domaine.