View-Invariante Wahrscheinlichkeitseingebettung für menschliche Pose

Darstellungen ähnlicher menschlicher Körperkonfigurationen können sich mit wechselnden Betrachtungswinkeln ändern. Mit nur 2D-Informationen möchten wir es visuellen Algorithmen ermöglichen, Ähnlichkeiten in menschlichen Körperhaltungen über mehrere Ansichten hinweg zu erkennen. Diese Fähigkeit ist nützlich für die Analyse von Körpervideo und menschlichem Verhalten in Bildern und Videos. In dieser Arbeit schlagen wir einen Ansatz vor, um einen kompakten, ansichtsinvarianten Einbettungsraum allein aus 2D-Gelenkpunkten zu lernen, ohne explizit 3D-Haltungen vorherzusagen. Da 2D-Haltungen aus dem 3D-Raum projiziert werden, besitzen sie eine inhärente Ambiguität, die durch eine deterministische Abbildung schwer darstellbar ist. Daher verwenden wir probabilistische Einbettungen, um diese Eingangsunsicherheit zu modellieren. Experimentelle Ergebnisse zeigen, dass unser Einbettungsmodell bei der Rückgewinnung ähnlicher Haltungen aus verschiedenen Kamerasichten höhere Genauigkeit erzielt im Vergleich zu Modellen zur Hebung von 2D- auf 3D-Haltungen. Wir demonstrieren auch die Effektivität unserer Einbettungen bei der ansichtsinvarianten Aktionserkennung und Videoausrichtung. Unser Code ist unter https://github.com/google-research/google-research/tree/master/poem verfügbar.