MSeg : Un ensemble de données composé pour la segmentation sémantique multi-domaines

Nous présentons MSeg, un ensemble de données composite qui unifie des jeux de données de segmentation sémantique provenant de divers domaines. Une fusion naïve des jeux de données constitutifs conduit à de mauvaises performances en raison de taxonomies incohérentes et de pratiques d'annotation disparates. Nous harmonisons les taxonomies et alignons les annotations au niveau des pixels en réétiquetant plus de 220 000 masques d'objets sur plus de 80 000 images, une tâche qui a nécessité plus de 1,34 année d'effort collectif d'annotateurs. Le jeu de données composite ainsi obtenu permet d'entraîner un unique modèle de segmentation sémantique fonctionnant efficacement à travers différents domaines et généralisant à des jeux de données non vus lors de l'entraînement. Nous adoptons le transfert zéro-shot entre jeux de données comme référence pour évaluer systématiquement la robustesse d’un modèle, et montrons que l’entraînement sur MSeg produit des modèles nettement plus robustes que l’entraînement sur des jeux de données individuels ou une combinaison naïve sans les contributions proposées. Un modèle entraîné sur MSeg occupe la première place au classement WildDash-v1 pour la segmentation sémantique robuste, sans avoir été exposé aux données de WildDash durant l’entraînement. Nous évaluons nos modèles dans le cadre du Robust Vision Challenge (RVC) 2020 comme expérience extrême de généralisation. Les jeux de données inclus dans l’entraînement sur MSeg ne représentent que trois des sept jeux de données du RVC ; plus important encore, la taxonomie d’évaluation du RVC est différente et plus fine. De manière surprenante, notre modèle affiche des performances compétitives et se classe deuxième. Pour évaluer à quel point nous nous rapprochons de l’objectif ambitieux d’une compréhension robuste, efficace et complète de la scène, nous allons au-delà de la segmentation sémantique en entraînant des modèles de segmentation d’instances et de segmentation panoptique à partir de notre jeu de données. En outre, nous évaluons diverses décisions d’ingénierie et métriques, notamment la résolution et l’efficacité computationnelle. Bien que nos modèles soient encore éloignés de cet objectif majeur, notre évaluation exhaustive est essentielle pour progresser. Nous mettons à disposition l’ensemble des modèles et du code auprès de la communauté.