CondNet: Bedingter Klassifikator für Szenensegmentierung

Das vollständig konvolutionale Netzwerk (FCN) hat erheblichen Erfolg bei dichten visuellen Erkennungsaufgaben wie der Szenensegmentierung erzielt. Die letzte Schicht eines FCN ist typischerweise ein globaler Klassifikator (1×1-Konvolution), der jedes Pixel einer semantischen Klasse zuordnet. Wir zeigen empirisch, dass dieser globale Klassifikator, der die Unterschiede innerhalb einer Klasse ignoriert, zu suboptimalen Ergebnissen führen kann.In dieser Arbeit stellen wir einen bedingten Klassifikator vor, der den traditionellen globalen Klassifikator ersetzt, wobei die Kernel des Klassifikators dynamisch basierend auf der Eingabe generiert werden. Die Hauptvorteile des neuen Klassifikators sind: (i) er berücksichtigt die Unterschiede innerhalb einer Klasse, was zu einer stärkeren Fähigkeit bei der dichten Erkennung führt; (ii) der bedingte Klassifikator ist einfach und flexibel, sodass er nahezu in beliebige FCN-Architekturen integriert werden kann, um die Vorhersageleistung zu verbessern. Umfangreiche Experimente zeigen, dass der vorgeschlagene Klassifikator gegenüber dem traditionellen Klassifikator auf FCN-Architekturen überlegen ist. Das mit dem bedingten Klassifikator ausgestattete Framework (CondNet) erreicht neue SOTA-Ergebnisse auf zwei Datensätzen. Der Quellcode und die Modelle sind unter https://git.io/CondNet verfügbar.