HyperAIHyperAI
vor 16 Tagen

Zoom Besser, Um Klare zu Sehen: Mensch- und Objektparsing mit Hierarchischem Auto-Zoom-Net

{Liang-Chieh Chen, Fangting Xia, Peng Wang, Alan L. Yuille}
Zoom Besser, Um Klare zu Sehen: Mensch- und Objektparsing mit Hierarchischem Auto-Zoom-Net
Abstract

Die Aufteilung artikulierter Objekte, beispielsweise Menschen und Tiere, in semantische Teile (wie Körper, Kopf und Arme usw.) aus natürlichen Bildern stellt eine herausfordernde und grundlegende Aufgabe für die Computer Vision dar. Eine große Schwierigkeit ergibt sich aus der hohen Variabilität von Skala und Position sowohl der Objekte als auch ihrer entsprechenden Teile. Schon geringfügige Fehler bei der Schätzung von Skala und Position beeinträchtigen die Parsing-Ergebnisse erheblich und führen zu Fehlern in den Randdetails. Um diesen Herausforderungen zu begegnen, schlagen wir ein „Hierarchisches Auto-Zoom-Netz“ (HAZN) für die Objektteil-Parsing vor, das sich an die lokalen Skalen von Objekten und deren Teilen anpasst. HAZN besteht aus einer Folge zweier „Auto-Zoom-Netze“ (AZNs), wobei jedes AZN vollständig konvolutionale Netzwerke verwendet, die zwei Aufgaben erfüllen: (1) die Lage und Skala von Objektinstanzen (erstes AZN) oder deren Teilen (zweites AZN) vorhersagen; (2) die Teil-Scores für vorhergesagte Objekt- oder Teilregionen schätzen. Unser Modell kann vorhergesagte Bildregionen adaptiv „vergrößern“ (skalieren), um die Genauigkeit des Parsings zu verfeinern.Wir führen umfangreiche Experimente auf den PASCAL-Part-Datensätzen für Menschen, Pferde und Kühe durch. Für Menschen übertrifft unser Ansatz die bisher besten Verfahren signifikant um 5 % mIOU und zeichnet sich besonders bei der Segmentierung kleiner Instanzen und kleiner Teile aus. Ähnliche Verbesserungen erreichen wir bei der Analyse von Kühen und Pferden gegenüber alternativen Methoden. Zusammenfassend zeigt sich, dass unsere Strategie, zunächst auf Objekte und anschließend auf deren Teile zu „vergrößern“, äußerst effektiv ist. Zudem ermöglicht sie eine adaptiv unterschiedliche Skalierung verschiedener Bildregionen, sodass beispielsweise keine Ressourcen für die Skalierung des gesamten Bildes verschwendet werden müssen.