Vollkonvolutionale Netze für semantische Segmentierung

Faltungssnetze sind leistungsstarke visuelle Modelle, die Hierarchien von Merkmalen erzeugen. Wir zeigen, dass Faltungssnetze an sich, von Anfang bis Ende trainiert und von Pixeln zu Pixeln, das bisher beste Ergebnis in der semantischen Segmentierung verbessern. Unser wesentlicher Einblick besteht darin, "vollständig faltungsbasierte" Netzwerke zu entwickeln, die Eingaben beliebiger Größe akzeptieren und entsprechend große Ausgaben mit effizienter Inferenz und Lernprozessen erzeugen. Wir definieren und beschreiben den Raum vollständig faltungsbasierten Netzwerke, erklären ihre Anwendung bei räumlich dichten Vorhersageaufgaben und ziehen Parallelen zu früheren Modellen. Wir passen moderne Klassifikationsnetze (AlexNet, das VGG-Netz und GoogLeNet) in vollständig faltungsbasierte Netzwerke an und übertragen ihre gelernten Repräsentationen durch Feinabstimmung auf die Segmentierungsaufgabe. Danach definieren wir eine Skip-Architektur, die semantische Informationen aus einer tiefen, groben Schicht mit Erscheinungsmerkmalen aus einer flachen, feinen Schicht kombiniert, um genaue und detaillierte Segmentierungen zu erzeugen. Unser vollständig faltungsbasierter Netzwerk erreicht eine verbesserte Segmentierung von PASCAL VOC (30% relativer Verbesserung auf 67,2% mittleres IU im Jahr 2012), NYUDv2, SIFT Flow und PASCAL-Context, wobei die Inferenz für ein typisches Bild nur ein Zehntel Sekunde dauert.