Mehrpersonen-Pose-Schätzung mit lokalen Gelenk-zu-Personen-Assoziationen

Trotz des kürzlichen Erfolgs von neuronalen Netzen bei der Schätzung menschlicher Körperhaltungen sind aktuelle Ansätze auf die Schätzung der Haltung einer einzelnen Person beschränkt und können Gruppen oder Menschenmengen nicht verarbeiten. In dieser Arbeit schlagen wir eine Methode vor, die die Haltungen mehrerer Personen in einem Bild schätzt, in dem eine Person durch eine andere verdeckt sein kann oder möglicherweise abgeschnitten ist. Hierzu betrachten wir die Mehrpersonen-Körperhaltungsschätzung als ein Problem der Zuordnung von Gelenken zu Personen. Wir bilden einen vollständig verbundenen Graphen aus einer Menge von in einem Bild erkannten Gelenkkandidaten und lösen die Zuordnung von Gelenken zu Personen sowie die Ausreißererkennung mittels ganzzahliger linearer Programmierung. Da das gemeinsame Lösen der Zuordnung von Gelenken zu Personen für alle Personen in einem Bild ein NP-schweres Problem ist und selbst Approximationen teuer sind, lösen wir das Problem lokal für jede Person. Auf dem anspruchsvollen MPII Human Pose Datensatz für mehrere Personen erreicht unser Ansatz die Genauigkeit einer Stand-of-the-Art-Methode, ist aber 6.000 bis 19.000 Mal schneller.