HyperAIHyperAI
vor 2 Monaten

Ganzheitliches, instanzbasiertes menschliches Parsing

Li, Qizhu ; Arnab, Anurag ; Torr, Philip H. S.
Ganzheitliches, instanzbasiertes menschliches Parsing
Abstract

Objekt-Parsing – die Aufgabe, ein Objekt in seine semantischen Teile zu zerlegen – wurde traditionell als ein Kategorie-Level-Segmentierungsproblem formuliert. Folglich können aktuelle Methoden bei der Anwesenheit mehrerer Objekte in einem Bild weder die Anzahl der Objekte in der Szene zählen noch bestimmen, welcher Teil zu welchem Objekt gehört. Wir lösen dieses Problem durch die Segmentierung der Teile von Objekten auf Instanz-Level, sodass jedem Pixel im Bild eine Teillabel sowie die Identität des ihm zugehörigen Objekts zugewiesen wird. Darüber hinaus zeigen wir, wie dieser Ansatz uns auch bei der Erreichung von Segmentierungen auf groberer Granularität vorteilhaft ist. Unser vorgeschlagenes Netzwerk wird unter Berücksichtigung von Detektionen end-to-end trainiert und beginnt mit einem Modul für Kategorie-Level-Segmentierung. Danach führt ein differenzierbares bedingtes Markow-Netz (Conditional Random Field), das über eine variable Anzahl von Instanzen für jedes Eingabebild definiert ist, eine Schlussfolgerung über die Identität jedes Teils durch seine Zuordnung zu einer menschlichen Detektion durch. Im Gegensatz zu anderen Ansätzen kann unsere Methode die variierende Anzahl von Personen in jedem Bild verarbeiten und unser ganzheitliches Netzwerk erzielt Spitzenwerte in der Instanz-Level-Teil- und Menschen-Segmentierung sowie wettbewerbsfähige Ergebnisse in der Kategorie-Level-Teil-Segmentierung, allesamt durch einen einzigen Vorwärtspass unseres neuronalen Netzes erreicht.

Ganzheitliches, instanzbasiertes menschliches Parsing | Neueste Forschungsarbeiten | HyperAI