HyperAIHyperAI
vor 2 Monaten

DeeperLab: Einstufiger Bildparser

Tien-Ju Yang; Maxwell D. Collins; Yukun Zhu; Jyh-Jing Hwang; Ting Liu; Xiao Zhang; Vivienne Sze; George Papandreou; Liang-Chieh Chen
DeeperLab: Einstufiger Bildparser
Abstract

Wir präsentieren einen Einsschritt-, bottom-up Ansatz für die gesamte Bildanalyse. Die gesamte Bildanalyse, auch als Panoptische Segmentierung bekannt, verallgemeinert die Aufgaben der semantischen Segmentierung für „stuff“-Klassen und der Instanzsegmentierung für „thing“-Klassen, indem sie sowohl semantische als auch instanzbezogene Labels jedem Pixel in einem Bild zuordnet. Aktuelle Ansätze zur gesamten Bildanalyse verwenden in der Regel getrennte, eigenständige Module für die Bestandteile der semantischen und instanzbezogenen Segmentierung und erfordern mehrere Inferenzdurchläufe. Im Gegensatz dazu führt der vorgeschlagene DeeperLab-Bildparser die gesamte Bildanalyse mit einem wesentlich einfacheren, vollständig faltungsbasierenden Ansatz durch, der die semantische und instanzbezogene Segmentierung gleichzeitig behandelt. Dies resultiert in einem strömungsfähigeren System, das sich besser für schnelle Verarbeitung eignet. Für eine quantitative Bewertung verwenden wir sowohl das instanzbasierte Panoptische Qualität (PQ)-Maß und das vorgeschlagene regionsbasierte Parsing Covering (PC)-Maß, welches die Qualitätsaspekte der Bildanalyse auf „stuff“-Klassen und größeren Objektinstanzen besser erfasst. Wir berichten über experimentelle Ergebnisse auf dem anspruchsvollen Mapillary Vistas-Datensatz, bei dem unser einzelnes Modell eine Panoptische Qualität von 31,95% (Val) / 31,6% PQ (Test) und ein Parsing Covering von 55,26% PC (Val) erreicht. Dies wird bei einer Geschwindigkeit von 3 Bildern pro Sekunde (Bps) auf GPU oder nahezu Echtzeitgeschwindigkeit (22,6 Bps auf GPU) mit reduzierter Genauigkeit erreicht.