Große Kerne zählen -- Verbesserung der semantischen Segmentierung durch globale Faltungsnetze

Einer der aktuellen Trends [30, 31, 14] im Design von Netzwerkarchitekturen besteht darin, kleine Filter (z.B. 1x1 oder 3x3) über das gesamte Netzwerk zu stapeln, da stapelweise angeordnete kleine Filter bei gleicher Rechenkomplexität effizienter sind als ein großer Kern. Allerdings finden wir im Bereich der semantischen Segmentierung, wo eine dichte Pixel-basierte Vorhersage erforderlich ist, dass der große Kern (und das effektive Rezeptivfeld) eine wichtige Rolle spielt, wenn Klassifikations- und Lokalisierungsaufgaben gleichzeitig durchgeführt werden müssen. Auf Basis unseres Designprinzips schlagen wir ein Globales Faltungsnetzwerk (Global Convolutional Network) vor, um sowohl die Klassifikations- als auch die Lokalisierungsprobleme für die semantische Segmentierung anzugehen. Wir empfehlen zudem eine residuumbasierte Randverfeinerung zur weiteren Verfeinerung der Objektrandbereiche. Unser Ansatz erreicht den Stand der Technik auf zwei öffentlichen Benchmarks und übertreffen die bisherigen Ergebnisse erheblich: 82,2 % (im Vergleich zu 80,2 %) auf dem PASCAL VOC 2012-Datensatz und 76,9 % (im Vergleich zu 71,8 %) auf dem Cityscapes-Datensatz.