HyperAIHyperAI
il y a 17 jours

Architectures de réseaux adaptatifs et généralisables ainsi que stratégies d'entraînement pour la segmentation sémantique d'images

Lukas Hoyer, Dengxin Dai, Luc Van Gool
Architectures de réseaux adaptatifs et généralisables ainsi que stratégies d'entraînement pour la segmentation sémantique d'images
Résumé

L’adaptation de domaine non supervisée (UDA) et la généralisation de domaine (DG) permettent aux modèles d’apprentissage automatique entraînés sur un domaine source de s’adapter efficacement à des domaines cibles non étiquetés, voire inédits. Étant donné que les méthodes précédentes d’adaptation de domaine non supervisée et de généralisation de domaine pour la segmentation sémantique reposent principalement sur des architectures obsolètes, nous évaluons des architectures plus récentes, mettons en évidence le potentiel des Transformers, et proposons le réseau DAFormer, spécifiquement conçu pour l’UDA et la DG. Ce modèle repose sur trois stratégies d’entraînement visant à éviter le surajustement au domaine source : (1) l’échantillonnage des classes rares atténue le biais en faveur des classes fréquentes du domaine source ; (2) une distance de caractéristiques ImageNet pour les classes d’objets (thing classes) et (3) un réchauffement du taux d’apprentissage favorisent le transfert de caractéristiques issu de la pré-formation sur ImageNet. Étant donné que l’UDA et la DG sont généralement très intensives en mémoire GPU, la plupart des méthodes antérieures réduisent la résolution ou coupent les images. Toutefois, les prédictions à faible résolution peinent souvent à préserver les détails fins, tandis que les modèles entraînés sur des images découpées manquent de capacité à capturer des informations contextuelles à longue portée, robustes au domaine. Nous proposons donc HRDA, un cadre multi-résolution pour l’UDA et la DG, combinant les avantages de petites régions haute résolution pour préserver les détails fins de la segmentation et de grandes régions basse résolution pour capter les dépendances contextuelles à longue portée, via une attention d’échelle apprise. DAFormer et HRDA améliorent significativement l’état de l’art de l’UDA et de la DG, avec une augmentation de plus de 10 mIoU sur cinq benchmarks différents. L’implémentation est disponible à l’adresse suivante : https://github.com/lhoyer/HRDA.

Architectures de réseaux adaptatifs et généralisables ainsi que stratégies d'entraînement pour la segmentation sémantique d'images | Articles de recherche récents | HyperAI