HyperAIHyperAI
vor 2 Monaten

Keypoint-Transformer: Die Lösung der Gelenkidentifikation bei herausfordernden Hand- und Objektinteraktionen für eine genaue 3D-Pose-Schätzung

Hampali, Shreyas ; Sarkar, Sayan Deb ; Rad, Mahdi ; Lepetit, Vincent
Keypoint-Transformer: Die Lösung der Gelenkidentifikation bei herausfordernden Hand- und Objektinteraktionen für eine genaue 3D-Pose-Schätzung
Abstract

Wir schlagen eine robuste und genaue Methode zur Schätzung der 3D-Posen von zwei Händen bei engem Interaktionskontext aus einem einzelnen Farbbild vor. Dies ist ein sehr anspruchsvolles Problem, da es zu großen Verdeckungen und vielen Verwechslungen zwischen den Gelenken kommen kann. State-of-the-Art-Methoden lösen dieses Problem, indem sie für jedes Gelenk eine Heatmap regressieren, was die simultane Lösung zweier Aufgaben erfordert: die Lokalisierung der Gelenke und ihre Erkennung. In dieser Arbeit schlagen wir vor, diese Aufgaben zu trennen, indem wir zunächst auf einem CNN basieren, um die Gelenke als 2D-Schlüsselpunkte zu lokalisieren, und dann Selbst-Attention zwischen den CNN-Features an diesen Schlüsselpunkten verwenden, um sie mit dem entsprechenden Handgelenk zu verknüpfen. Die resultierende Architektur, die wir "Keypoint Transformer" nennen, ist hoch effizient, da sie mit etwa halb so vielen Modellparametern state-of-the-art Leistung auf dem InterHand2.6M-Datensatz erzielt. Wir zeigen außerdem, dass sie leicht erweitert werden kann, um die 3D-Pose eines von einer oder beiden Händen manipulierten Objekts mit hoher Leistung zu schätzen. Darüber hinaus haben wir einen neuen Datensatz von mehr als 75.000 Bildern erstellt, bei denen zwei Hände ein Objekt vollständig in 3D annotiert manipulieren, und wir werden ihn öffentlich zugänglich machen.

Keypoint-Transformer: Die Lösung der Gelenkidentifikation bei herausfordernden Hand- und Objektinteraktionen für eine genaue 3D-Pose-Schätzung | Neueste Forschungsarbeiten | HyperAI