HyperAIHyperAI
il y a 8 jours

DAFormer : Amélioration des architectures de réseau et des stratégies d'entraînement pour la segmentation sémantique adaptative au domaine

Lukas Hoyer, Dengxin Dai, Luc Van Gool
DAFormer : Amélioration des architectures de réseau et des stratégies d'entraînement pour la segmentation sémantique adaptative au domaine
Résumé

Comme l’acquisition d’annotations pixel-par-pixel pour des images du monde réel dans le cadre de la segmentation sémantique est un processus coûteux, un modèle peut être entraîné à la place sur des données synthétiques plus accessibles, puis adapté aux images réelles sans nécessiter d’étiquetages pour celles-ci. Ce processus est étudié dans le cadre de l’adaptation de domaine non supervisée (UDA, Unsupervised Domain Adaptation). Bien que de nombreuses méthodes proposent de nouvelles stratégies d’adaptation, elles reposent principalement sur des architectures de réseaux obsolètes. Étant donné que l’impact des architectures récentes de réseaux n’a pas été systématiquement évalué, nous menons tout d’abord une étude comparative de différentes architectures de réseaux pour l’UDA, révélant de manière nouvelle le potentiel des Transformers dans la segmentation sémantique par UDA. Sur la base de ces résultats, nous proposons une nouvelle méthode d’UDA, appelée DAFormer. L’architecture du réseau DAFormer repose sur un encodeur Transformer et un décodeur à fusion de caractéristiques à plusieurs niveaux, sensible au contexte. Elle est rendue possible par trois stratégies d’entraînement simples mais cruciales, visant à stabiliser l’entraînement et à éviter le surapprentissage au domaine source : (1) l’échantillonnage des classes rares dans le domaine source améliore la qualité des pseudo-étiquettes en atténuant le biais de confirmation de l’auto-entraînement en faveur des classes fréquentes ; (2) la distance des caractéristiques ImageNet pour les classes « thing » et (3) un réchauffement du taux d’apprentissage favorisent le transfert de caractéristiques provenant de l’entraînement préalable sur ImageNet. DAFormer marque une avancée majeure dans le domaine de l’UDA : il améliore l’état de l’art de 10,8 mIoU pour la tâche GTA-to-Cityscapes et de 5,4 mIoU pour Synthia-to-Cityscapes, tout en permettant une apprentissage efficace même des classes difficiles telles que le train, le bus et le camion. Le code source est disponible à l’adresse suivante : https://github.com/lhoyer/DAFormer.