HyperAIHyperAI
il y a 2 mois

DSNet : Une Nouvelle Méthode d'Utilisation des Convolutions Atrous dans la Segmentation Sémantique

Zilu Guo; Liuyang Bian; Xuan Huang; Hu Wei; Jingyu Li; Huasheng Ni
DSNet : Une Nouvelle Méthode d'Utilisation des Convolutions Atrous dans la Segmentation Sémantique
Résumé

Les convolutions dilatées sont utilisées comme une méthode pour augmenter le champ récepteur dans les tâches de segmentation sémantique. Cependant, dans les travaux précédents sur la segmentation sémantique, elles étaient rarement employées dans les couches superficielles du modèle. Nous reprenons l'étude de la conception des convolutions dilatées dans les réseaux neuronaux convolutionnels (CNN) modernes et démontrons que l'idée d'utiliser des noyaux de grande taille pour appliquer des convolutions dilatées pourrait être un paradigme plus puissant. Nous proposons trois lignes directrices pour appliquer les convolutions dilatées de manière plus efficace. En suivant ces lignes directrices, nous présentons DSNet, une architecture CNN à double branche, qui intègre des convolutions dilatées dans les couches superficielles de l'architecture du modèle, ainsi qu'un pré-entraînement de presque tout l'encodeur sur ImageNet afin d'obtenir de meilleures performances. Pour démontrer l'efficacité de notre approche, nos modèles atteignent un nouveau compromis entre précision et vitesse d'inférence sur les ensembles de données ADE20K, Cityscapes et BDD. Plus précisément, DSNet obtient un mIOU de 40,0% avec une vitesse d'inférence de 179,2 FPS sur ADE20K, et un mIOU de 80,4% avec une vitesse de 81,9 FPS sur Cityscapes. Le code source et les modèles sont disponibles sur Github : https://github.com/takaniwa/DSNet.