Apprentissage interactif des propriétés intrinsèques et extrinsèques pour la segmentation sémantique sur toute la journée
Les apparences des scènes évoluent de manière radicale au cours de la journée. Les méthodes existantes de segmentation sémantique se concentrent principalement sur des scénarios bien éclairés en journée et ne sont pas spécifiquement conçues pour faire face à de telles variations d’apparence. L’application naïve de l’adaptation de domaine ne résout pas ce problème, car elle apprend généralement une application fixe entre le domaine source et le domaine cible, limitant ainsi sa capacité de généralisation dans des scénarios tout au long de la journée (c’est-à-dire de l’aube à la nuit).Dans ce travail, contrairement aux approches existantes, nous abordons ce défi du point de vue même de la formulation d’image, où l’apparence d’une image est déterminée par des propriétés intrinsèques (par exemple, catégorie sémantique, structure) et extrinsèques (par exemple, éclairage). À cette fin, nous proposons une nouvelle stratégie d’apprentissage interactif intrinsèque-extrinsèque. L’idée centrale consiste à établir une interaction entre les représentations intrinsèques et extrinsèques au cours du processus d’apprentissage, guidée de manière spatiale. Ainsi, la représentation intrinsèque devient plus stable, tandis que la représentation extrinsèque s’améliore dans la modélisation des variations. Par conséquent, la représentation d’image réaffinée devient plus robuste pour générer des prédictions pixel-par-pixel dans des scénarios tout au long de la journée. Pour réaliser cela, nous proposons un réseau de segmentation tout-en-un (AO-SegNet) de manière end-to-end.Des expérimentations à grande échelle sont menées sur trois jeux de données réels (Mapillary, BDD100K et ACDC) ainsi que sur notre jeu de données synthétique proposé, All-day CityScapes. Le modèle AO-SegNet proposé montre une amélioration significative par rapport aux états de l’art sur l’ensemble des jeux de données, quel que soit le squelette CNN ou ViT utilisé.