IVT: Ein end-to-end instanzgeleiteter Video-Transformer für die 3D-Gestenerkennung

Die 3D-Gelenkpositionsschätzung menschlicher Körper aus Videos zielt darauf ab, die 3D-Koordinaten menschlicher Gelenke aus Videosequenzen zu lokalisieren. Rezenten Ansätze, die auf Transformers basieren, konzentrieren sich darauf, räumlich-zeitliche Informationen aus sequenziellen 2D-Gelenkpositionen zu erfassen. Diese Ansätze können jedoch die kontextuelle Tiefeninformation nicht effektiv modellieren, da visuelle Tiefenmerkmale im Schritt der 2D-Gelenkpositionsschätzung verloren gehen. In diesem Artikel vereinfachen wir das Paradigma zu einem end-to-end-Framework namens Instance-guided Video Transformer (IVT), das die effektive Lernung räumlich-zeitlicher kontextueller Tiefeninformation aus visuellen Merkmalen ermöglicht und direkt aus Videobildern 3D-Gelenkpositionen vorhersagt. Insbesondere formulieren wir Videobilder zunächst als eine Reihe von instanzgeleiteten Tokens, wobei jeder Token für die Vorhersage der 3D-Position einer menschlichen Instanz zuständig ist. Diese Tokens enthalten Körperstrukturinformationen, da sie durch die Anleitung von Gelenkverschiebungen vom menschlichen Zentrum zu den entsprechenden Körpergelenken extrahiert werden. Anschließend werden diese Tokens in den IVT eingespeist, um räumlich-zeitliche kontextuelle Tiefeninformation zu lernen. Darüber hinaus schlagen wir eine cross-scale instanzgeleitete Aufmerksamkeitsmechanik vor, um die variierenden Skalen mehrerer Personen effektiv zu behandeln. Schließlich werden die 3D-Gelenkpositionen jeder Person aus den instanzgeleiteten Tokens mittels Koordinatensregression abgeleitet. Experimente an drei weit verbreiteten Benchmarks für 3D-Gelenkpositionsschätzung zeigen, dass das vorgeschlagene IVT Leistungen auf dem Stand der Technik erreicht.