Aggrégation du contexte multi-échelle par convolutions dilatées

Les modèles de pointe pour la segmentation sémantique sont basés sur des adaptations de réseaux de neurones convolutifs qui avaient à l'origine été conçus pour la classification d'images. Cependant, la prédiction dense et la classification d'images sont structurellement différentes. Dans ce travail, nous développons un nouveau module de réseau de neurones convolutif spécifiquement conçu pour la prédiction dense. Le module présenté utilise des convolutions dilatées pour agrégater systématiquement des informations contextuelles multi-échelles sans perte de résolution. L'architecture repose sur le fait que les convolutions dilatées permettent une expansion exponentielle du champ récepteur sans perte de résolution ou de couverture. Nous montrons que le module contextuel présenté augmente la précision des systèmes de segmentation sémantique de pointe. De plus, nous examinons l'adaptation des réseaux de classification d'images à la prédiction dense et démontrons que simplifier le réseau adapté peut augmenter la précision.