PersonLab: Personen-Pose-Schätzung und Instanzsegmentierung mit einem bottom-up, teilsbasierten, geometrischen Einbettungsmodell

Wir präsentieren einen box-freien bottom-up Ansatz für die Aufgaben der Pose-Schätzung und der Instanzsegmentierung von Personen in Mehrpersonenbildern unter Verwendung eines effizienten Single-Shot-Modells. Das vorgeschlagene PersonLab-Modell löst sowohl semantische Überlegungen als auch Objektteil-Zuordnungen durch teilbasiertes Modellieren. Unser Modell verwendet ein Faltungsnetzwerk (Convolutional Network), das lernt, einzelne Schlüsselpunkte zu erkennen und ihre relativen Verschiebungen vorherzusagen, wodurch wir Schlüsselpunkte zu Person-Pose-Instanzen gruppieren können. Darüber hinaus schlagen wir eine teilinduzierte geometrische Einbettungsbeschreibung vor, die es uns ermöglicht, semantische Personpixel mit ihren entsprechenden Personinstanzen zu verknüpfen und somit instanzbasierte Personsegmentierungen zu liefern. Unser System basiert auf einer vollständig faltungsnetzbasierten Architektur (fully-convolutional architecture) und ermöglicht eine effiziente Inferenz, wobei die Laufzeit im Wesentlichen unabhängig von der Anzahl der Personen in der Szene ist. Trainiert ausschließlich mit COCO-Daten erreicht unser System eine COCO Test-Dev Schlüsselpunkt-Durchschnittsgenauigkeit von 0,665 bei einfacher Skaleninferenz und 0,687 bei mehrfacher Skaleninferenz, was alle bisherigen bottom-up Pose-Schätzsysteme erheblich übertrifft. Wir sind auch das erste bottom-up Verfahren, das wettbewerbsfähige Ergebnisse für die Personklasse in der COCO Instanzsegmentierungsaufgabe meldet und erreicht eine Durchschnittsgenauigkeit der Personkategorie von 0,417.