EgoPoseFormer: Eine einfache Baseline für die stereoskopische egozentrische 3D-Pose-Schätzung von Menschen

Wir präsentieren EgoPoseFormer, ein einfaches und dennoch effektives Modell auf Basis von Transformatoren für die stereoskopische egozentrische Pose-Schätzung des Menschen. Die Hauptausforderung bei der egozentrischen Pose-Schätzung besteht darin, die Unsichtbarkeit von Gelenken zu überwinden, die durch Selbstverdeckungen oder einen begrenzten Sichtbereich (FOV) von Kopfmontagenkameras verursacht wird. Unser Ansatz bewältigt diese Herausforderung durch die Einbindung eines zweistufigen Paradigmas zur Pose-Schätzung: Im ersten Stadium nutzt unser Modell globale Informationen, um eine grobe Lokalisierung jedes Gelenks zu schätzen. Im zweiten Stadium verwendet es einen DETR-stiligen Transformer, um die groben Lokalisierungen durch Ausnutzung feingranularer stereoskopischer visueller Merkmale zu verfeinern. Zudem stellen wir eine deformierbare Stereo-Aufmerksamkeitsoperation vor, die es unserem Transformer ermöglicht, mehrfachansichtige Merkmale effektiv zu verarbeiten und so jede Gelenkposition in der 3D-Welt genauer zu lokalisieren. Wir evaluieren unsere Methode am stereo UnrealEgo-Datensatz und zeigen, dass sie erheblich bessere Ergebnisse als frühere Ansätze erzielt und dabei rechnerisch effizient ist: Sie verbessert das MPJPE um 27,4 mm (45 % Verbesserung), wobei sie nur 7,9 % der Modellparameter und 13,1 % der FLOPs im Vergleich zum aktuellen Stand der Technik benötigt. Überraschenderweise finden wir bei geeigneten Trainingsbedingungen heraus, dass sogar unser Netzwerk zur Vorschlagsbildung der ersten Stufe eine überlegene Leistung im Vergleich zu früheren Arbeiten erzielen kann. Darüber hinaus zeigen wir, dass unsere Methode nahtlos auf monoäulare Bedingungen erweitert werden kann, was auf dem SceneEgo-Datensatz ebenfalls den aktuellen Stand der Technik erreicht: Hier verbessert sie das MPJPE um 25,5 mm (21 % Verbesserung) im Vergleich zur besten existierenden Methode und benötigt dabei nur 60,7 % der Modellparameter und 36,4 % der FLOPs. Der Quellcode ist unter folgendem Link verfügbar:https://github.com/ChenhongyiYang/egoposeformer .