SPiKE: 3D-Menschliche Pose aus Punktwolkenfolgen

Die 3D-Pose-Schätzung des Menschen (HPE) ist die Aufgabe, Schlüsselpunkte des menschlichen Körpers im dreidimensionalen Raum aus 2D- oder 3D-Darstellungen wie RGB-Bildern, Tiefenkarten oder Punktwolken zu lokalisieren. Aktuelle HPE-Methoden für Tiefenkarten und Punktwolken basieren hauptsächlich auf der Schätzung einzelner Frames und nutzen temporale Informationen aus Sequenzen nicht aus. In dieser Arbeit wird SPiKE vorgestellt, ein neuer Ansatz zur 3D-Pose-Schätzung unter Verwendung von Punktwolken-Sequenzen. Im Gegensatz zu bestehenden Methoden, die Frames einer Sequenz unabhängig voneinander verarbeiten, nutzt SPiKE den zeitlichen Kontext, indem es eine Transformer-Architektur verwendet, um räumlich-zeitliche Beziehungen zwischen Punkten über die gesamte Sequenz zu kodieren. Durch das Aufteilen der Punktwolke in lokale Volumina und die Anwendung von räumlicher Merkmalsextraktion mittels punktweiser räumlicher Faltung stellt SPiKE sicher, dass die Verarbeitung durch den Transformer effizient erfolgt, während gleichzeitig die räumliche Integrität pro Zeitstempel erhalten bleibt. Experimente am ITOP-Benchmark für 3D-Pose-Schätzung zeigen, dass SPiKE einen mAP-Wert von 89,19 % erreicht und damit den Stand der Technik bei deutlich kürzeren Inferenzzeiten aufzeigt. Ausführliche Abstraktionen bestätigen zudem die Effektivität der Nutzung von Sequenzen sowie unsere algorithmischen Entscheidungen. Der Quellcode und die Modelle sind unter folgender URL verfügbar: https://github.com/iballester/SPiKE