Réseaux de Convolution Déformables

Les réseaux de neurones convolutifs (CNNs) sont fondamentalement limités dans leur capacité à modéliser des transformations géométriques en raison des structures géométriques fixes présentes dans leurs modules de construction. Dans cette étude, nous introduisons deux nouveaux modules visant à améliorer la capacité de modélisation des transformations des CNNs, à savoir la convolution déformable et le pooling d'RoI déformable (deformable RoI pooling). Ces deux modules reposent sur l'idée d'augmenter les emplacements d'échantillonnage spatial dans les modules par des décalages supplémentaires et d'apprendre ces décalages à partir des tâches cibles, sans supervision supplémentaire. Les nouveaux modules peuvent facilement remplacer leurs homologues standards dans les CNNs existants et être entraînés de manière end-to-end par rétropropagation standard, donnant ainsi naissance aux réseaux de neurones convolutifs déformables. De nombreuses expérimentations valident l'efficacité de notre approche sur des tâches complexes de vision par ordinateur telles que la détection d'objets et la segmentation sémantique. Le code sera rendu disponible.