HyperSeg: Patchweise Hypernetzwerk für Echtzeit-Semantische Segmentierung

Wir präsentieren ein neues, in Echtzeit arbeitendes semantisches Segmentierungsnetzwerk, bei dem der Encoder sowohl die Codierung durchführt als auch die Parameter (Gewichte) des Decoders generiert. Darüber hinaus ermöglicht unser Ansatz maximale Anpassungsfähigkeit, indem die Gewichte in jedem Decoderblock räumlich variieren. Zu diesem Zweck haben wir eine neue Art von Hypernetzen entwickelt, die aus einem verschachtelten U-Net besteht, das höhere Kontextmerkmale extrahiert, einem mehrköpfigen Modul zur Gewichtsgenerierung, das die Gewichte jedes Blocks im Decoder direkt vor deren Verwendung erzeugt, um den Speicherverbrauch effizient zu nutzen, und einem Hauptnetzwerk mit neuartigen dynamischen Patch-basierten Faltungen. Trotz der Verwendung weniger konventioneller Blöcke erreicht unsere Architektur Echtzeitleistung. Im Hinblick auf das Leistungs-Genauigkeits-Verhältnis übertreffen wir Stand-of-the-Art-Ergebnisse (SotA) bei gängigen Benchmarks für semantische Segmentierung: PASCAL VOC 2012 (Validierungsdatensatz), Cityscapes und CamVid. Der Code ist verfügbar unter: https://nirkin.com/hyperseg.