HyperAIHyperAI
vor 2 Monaten

DeepLab: Semantische Bildsegmentierung mit tiefen Faltungsnetzen, dilatierter Faltung und vollständig verbundenen CRFs

Liang-Chieh Chen; George Papandreou; Iasonas Kokkinos; Kevin Murphy; Alan L. Yuille
DeepLab: Semantische Bildsegmentierung mit tiefen Faltungsnetzen, dilatierter Faltung und vollständig verbundenen CRFs
Abstract

In dieser Arbeit befassen wir uns mit der Aufgabe der semantischen Bildsegmentierung unter Verwendung von Deep Learning und leisten drei wesentliche Beiträge, die experimentell einen erheblichen praktischen Nutzen zeigen. Erstens heben wir die Faltung mit aufgeprobten Filtern, oder "atrous Faltung" (atrous convolution), als ein leistungsfähiges Werkzeug in dichten Vorhersageaufgaben hervor. Die atrous Faltung ermöglicht es uns, die Auflösung, bei der Merkmalsantworten innerhalb tiefer konvolutiver Neuronaler Netze berechnet werden, explizit zu steuern. Sie ermöglicht es uns auch, den effektiven Blickwinkel der Filter effektiv zu vergrößern, um größere Kontexte zu berücksichtigen, ohne die Anzahl der Parameter oder den Rechenaufwand zu erhöhen. Zweitens schlagen wir eine atrous räumliche Pyramidensegmentierung (ASPP) vor, um Objekte robust auf mehreren Skalen zu segmentieren. ASPP untersucht eine eingehende konvolutive Merkmalslayer mit Filtern bei verschiedenen Abtastfrequenzen und effektiven Blickwinkeln, wodurch sowohl Objekte als auch das Bildkontext auf mehreren Skalen erfasst werden können. Drittens verbessern wir die Lokalisierung von Objektrandlinien durch die Kombination von Methoden aus tiefen konvolutiven neuronalen Netzen (DCNNs) und probabilistischen graphischen Modellen. Die üblicherweise verwendete Kombination von Max-Pooling und Downsampling in DCNNs erreicht Invarianz, hat aber einen negativen Einfluss auf die Lokalisationsgenauigkeit. Wir beheben dies durch die Kombination der Antworten in der finalen DCNN-Schicht mit einem vollständig vernetzten bedingten Markowfeld (CRF), was sowohl qualitativ als auch quantitativ zur Verbesserung der Lokalisationsleistung beiträgt. Unser vorgeschlagenes "DeepLab"-System setzt einen neuen Standard beim PASCAL VOC-2012-Aufgabenbereich für semantische Bildsegmentierung und erreicht im Testset 79,7 % mIOU. Es verbessert zudem die Ergebnisse in drei weiteren Datensätzen: PASCAL-Context, PASCAL-Person-Part und Cityscapes. Der gesamte Code wird öffentlich online zur Verfügung gestellt.

DeepLab: Semantische Bildsegmentierung mit tiefen Faltungsnetzen, dilatierter Faltung und vollständig verbundenen CRFs | Neueste Forschungsarbeiten | HyperAI