HyperAIHyperAI
il y a 2 mois

Transfert vers des Mises en Page Réelles : Un Cadre Conscient de la Profondeur pour l'Adaptation de Scène

Mu Chen; Zhedong Zheng; Yi Yang
Transfert vers des Mises en Page Réelles : Un Cadre Conscient de la Profondeur pour l'Adaptation de Scène
Résumé

La segmentation de scène par adaptation de domaine non supervisée (UDA) permet le transfert des connaissances acquises à partir de données synthétiques sources vers des données réelles cibles, ce qui réduit considérablement la nécessité d'annotations manuelles au niveau des pixels dans le domaine cible. Pour faciliter l'apprentissage de caractéristiques invariantes par rapport au domaine, les méthodes existantes mélangent généralement les données des deux domaines en copiant et collant simplement les pixels. Ces méthodes basiques sont généralement sous-optimales car elles ne prennent pas en compte la correspondance entre les dispositions mélangées et les scénarios du monde réel. Les scénarios du monde réel présentent une disposition inhérente. Nous observons que les catégories sémantiques, telles que les trottoirs, les bâtiments et le ciel, affichent des distributions de profondeur relativement cohérentes et peuvent être clairement distinguées dans une carte de profondeur. Sur la base de cette observation, nous proposons un cadre prenant en compte la profondeur pour exploiter explicitement l'estimation de profondeur afin de mélanger les catégories et faciliter deux tâches complémentaires, à savoir la segmentation et l'apprentissage de profondeur, de manière end-to-end. En particulier, le cadre comprend un Filtre Contextuel Guidé par la Profondeur (DCF) pour l'augmentation des données et un encodeur inter-tâches pour l'apprentissage contextuel. Le DCF simule les dispositions du monde réel, tandis que l'encodeur inter-tâches fusionne adaptativement les caractéristiques complémentaires entre les deux tâches. De plus, il convient de noter que plusieurs jeux de données publics ne fournissent pas d'annotations de profondeur. Par conséquent, nous utilisons un réseau d'estimation de profondeur prêt à l'emploi pour générer une profondeur pseudo-réelle. Des expériences approfondies montrent que nos méthodes proposées atteignent des performances compétitives sur deux benchmarks largement utilisés, soit 77,7 mIoU sur GTA vers Cityscapes et 69,3 mIoU sur Synthia vers Cityscapes.Note : - "mIoU" est traduit comme tel car c'est un terme technique couramment utilisé en français dans ce domaine (Mean Intersection over Union).- "off-the-shelf" est traduit par "prêt à l'emploi" pour maintenir le sens tout en restant formel.- "vanilla methods" est traduit par "méthodes basiques" pour éviter une expression trop familière.- "depth-aware framework" est traduit par "cadre prenant en compte la profondeur" pour clarifier son rôle.- "Depth-guided Contextual Filter (DCF)" est conservé avec son acronyme pour respecter la terminologie technique.- La structure des phrases a été légèrement modifiée pour améliorer la fluidité et la lisibilité en français.