Création de décalages de distribution pour la validation et l'entraînement dans la généralisation à un seul domaine source

La généralisation de domaine à partir d'une seule source vise à apprendre un modèle sur un domaine source et à le déployer sur des domaines cibles inconnus. La limitation de l'accès aux données du domaine source pose deux défis majeurs : comment entraîner un modèle capable de généraliser et comment vérifier qu'il le fait. La pratique standard de la validation sur la distribution d'entraînement ne reflète pas précisément la capacité de généralisation du modèle, tandis que la validation sur la distribution de test est une mauvaise pratique à éviter. Dans cette étude, nous construisons un ensemble de validation indépendant en transformant les images du domaine source avec une liste exhaustive d'augmentations, couvrant un large spectre de décalages potentiels dans les distributions des domaines cibles. Nous démontrons une forte corrélation entre les performances de validation et de test pour plusieurs méthodes et sur divers ensembles de données. La validation proposée améliore l'exactitude relative par rapport à la validation standard de 15,4 % ou 1,6 % lorsqu'elle est utilisée pour la sélection des méthodes ou l'ajustement du taux d'apprentissage, respectivement. De plus, nous introduisons une nouvelle famille de méthodes qui augmentent le biais de forme grâce à des cartes de contours améliorées. Pour bénéficier des augmentations pendant l'entraînement tout en préservant l'indépendance de l'ensemble de validation, un processus de validation k-fold est conçu pour séparer les types d'augmentation utilisés lors de l'entraînement et ceux utilisés lors de la validation. La méthode qui obtient les meilleures performances sur l'ensemble de validation augmenté est sélectionnée au sein de la famille proposée. Elle atteint des performances d'état de l'art sur divers benchmarks standards. Le code est disponible à : https://github.com/NikosEfth/crafting-shifts