Tief gelernte zusammengesetzte Modelle für die Menschpose-Schätzung

Kompositionelle Modelle stellen Muster durch Hierarchien sinnvoller Teile und Unterteile dar. Ihre Fähigkeit, hochwertige Beziehungen zwischen Körperteilen zu beschreiben, hilft dabei, niedrigstufige Mehrdeutigkeiten bei der menschlichen Pose-Schätzung (HPE) aufzulösen. Allerdings treffen frühere kompositionelle Modelle unrealistische Annahmen über die Beziehungen zwischen Unterteilen und Teilen, wodurch sie nicht in der Lage sind, komplexe kompositionelle Muster zu erfassen. Zudem können die Zustandsräume ihrer höherstufigen Teile exponentiell groß werden, was sowohl die Inferenz als auch das Lernen erheblich erschweren. Um diese Probleme zu bewältigen, stellt dieser Artikel einen neuen Ansatz vor, den sogenannten Deeply Learned Compositional Model (DLCM), für die HPE. Er nutzt tiefe neuronale Netze, um die Kompositionseigenschaften menschlicher Körper zu lernen. Dadurch entsteht ein Netzwerk mit einer hierarchischen kompositionellen Architektur und Stufen der bottom-up/top-down Inferenz. Zusätzlich wird eine neuartige, knochenbasierte Teildarstellung vorgeschlagen. Diese kodiert nicht nur effizient Orientierungen, Skalen und Formen der Teile, sondern vermeidet auch potenziell große Zustandsräume. Aufgrund der signifikant geringeren Komplexität erreicht unser Ansatz eine bessere Leistung als die derzeit besten Methoden auf drei etablierten Benchmark-Datensätzen.