DFANet: Tiefes Merkmalsaggregationsnetzwerk für Echtzeit-Semantische Segmentierung

Dieses Papier stellt eine äußerst effiziente CNN-Architektur namens DFANet für die semantische Segmentierung unter Ressourcenbeschränkungen vor. Das von uns vorgeschlagene Netzwerk beginnt mit einem einzelnen leichten Backbone und aggregiert diskriminative Merkmale durch Sub-Netzwerke und Sub-Stufen in Kaskaden. Auf Basis der Multi-Skalen-Merkmalspropagation reduziert DFANet die Anzahl der Parameter erheblich, erhält jedoch immer noch einen ausreichenden Rezeptionsbereich und verbessert die Modell-Lernfähigkeit, was ein Gleichgewicht zwischen Geschwindigkeit und Segmentationsleistung schafft. Experimente mit den Datensätzen Cityscapes und CamVid zeigen die überlegene Leistung von DFANet, das bei vergleichbarer Genauigkeit 8-mal weniger FLOPs (floating point operations) und 2-mal schneller als die bisher besten Echtzeit-Segmentierungsverfahren ist. Insbesondere erreicht es auf dem Testdatensatz von Cityscapes einen Mean IOU (Intersection over Union) von 70,3 % bei nur 1,7 GFLOPs und einer Geschwindigkeit von 160 FPS auf einer NVIDIA Titan X-Karte, sowie einen Mean IOU von 71,3 % bei 3,4 GFLOPs bei der Inferenz auf einem Bild höherer Auflösung.