HyperAIHyperAI
vor 17 Tagen

Dilatierter SpineNet für die semantische Segmentierung

Abdullah Rashwan, Xianzhi Du, Xiaoqi Yin, Jing Li
Dilatierter SpineNet für die semantische Segmentierung
Abstract

Skalen-permutierte Netzwerke haben vielversprechende Ergebnisse bei der Objektbegrenzungsbox-Detektion und der Instanzsegmentierung erzielt. Die Skalenpermutation und der kreuzskalige Fusionsansatz von Merkmalen ermöglichen es dem Netzwerk, mehrskalige Semantik zu erfassen, während gleichzeitig die räumliche Auflösung erhalten bleibt. In dieser Arbeit evaluieren wir diese Meta-Architektur auf der semantischen Segmentierung – einer weiteren visuellen Aufgabe, die von hoher räumlicher Auflösung und der Fusion mehrskaliger Merkmale in verschiedenen Stadien des Netzwerks profitiert. Durch die zusätzliche Nutzung von dilatierten Konvolutionen schlagen wir SpineNet-Seg vor, ein Netzwerk, das mittels Neural Architecture Search (NAS) aus dem DeepLabv3-System gefunden wurde. SpineNet-Seg ist mit einer verbesserten Skalen-permutierten Netzwerktopologie und maßgeschneiderten Dilatationsraten pro Block für die Aufgabe der semantischen Segmentierung entworfen. SpineNet-Seg-Modelle übertrumpfen die DeepLabv3/v3+-Baselines bei allen Modellgrößen auf mehreren gängigen Benchmarks sowohl in Geschwindigkeit als auch in Genauigkeit. Insbesondere erreicht unser SpineNet-S143+-Modell auf dem etablierten Cityscapes-Benchmark einen neuen SOTA-Wert mit 83,04 % mIoU und zeigt starke Leistung auf dem PASCAL VOC2012-Benchmark mit 85,56 % mIoU. Zudem erzielen SpineNet-Seg-Modelle vielversprechende Ergebnisse auf einem anspruchsvollen Street View-Segmentierungsdatensatz. Der Quellcode und die Modellcheckpoint-Dateien werden öffentlich zugänglich gemacht.

Dilatierter SpineNet für die semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI