il y a 17 jours

Perte triplette sensible au domaine dans la généralisation de domaine

Kaiyu Guo, Brian Lovell

Résumé

Malgré les progrès considérables réalisés dans le domaine de la reconnaissance d’objets grâce aux avancées du deep learning, plusieurs facteurs continuent d’altérer négativement les performances des modèles basés sur le deep learning. L’un de ces facteurs est le décalage de domaine, causé par des disparités entre les distributions des données d’entraînement et de test. Dans ce travail, nous nous concentrons sur le problème du regroupement compact des caractéristiques dans le cadre de la généralisation de domaine, afin d’optimiser l’espace d’encodage à partir de données issues de multiples domaines. Nous proposons une perte triplet orientée vers le domaine (domain-aware triplet loss) pour la généralisation de domaine, permettant au modèle de non seulement regrouper les caractéristiques sémantiquement similaires, mais aussi de disperser les caractéristiques associées à chaque domaine. Contrairement aux méthodes antérieures qui se concentrent principalement sur l’alignement des distributions, notre approche vise à dissiper l’information de domaine dans l’espace d’encodage. L’idée fondamentale repose sur l’hypothèse selon laquelle les caractéristiques d’encodage peuvent être regroupées selon des informations de domaine, hypothèse mathématiquement et empiriquement justifiée dans ce papier. Par ailleurs, au cours de notre exploration du regroupement des caractéristiques en généralisation de domaine, nous constatons que les facteurs influençant la convergence de la perte d’apprentissage métrique sont plus significatifs que les domaines prédéfinis. Pour résoudre ce problème, nous utilisons deux méthodes de normalisation de l’espace d’encodage afin de réduire le décalage interne des covariables des caractéristiques encodées. Une étude d’ablation démontre l’efficacité de notre algorithme. En outre, les expérimentations menées sur des jeux de données standards — notamment PACS, VLCS et Office-Home — montrent que notre méthode surpasse les approches existantes axées sur le décalage de domaine. En particulier, nos résultats obtenus avec RegnetY-16 sont nettement supérieurs aux méthodes de pointe sur ces jeux de données. Le code source sera publié à l’adresse suivante : https://github.com/workerbcd/DCT