Szenenbewusste egozentrische 3D-Pose-Schätzung von Menschen

Die Schätzung der 3D-Pose von Menschen aus einer egozentrischen Perspektive mit einer einzelnen am Kopf montierten Fischaugenkamera hat aufgrund ihrer zahlreichen Anwendungen in virtueller und augmentierter Realität in letzter Zeit Aufmerksamkeit gefunden. Bestehende Methoden haben jedoch immer noch Schwierigkeiten bei herausfordernden Poses, bei denen der menschliche Körper stark verdeckt ist oder eng mit der Szene interagiert. Um dieses Problem zu lösen, schlagen wir eine szenebewusste Methode zur Schätzung der egozentrischen Pose vor, die die Vorhersage der egozentrischen Pose durch szenebezogene Einschränkungen leitet. Dazu stellen wir ein Netzwerk zur Schätzung der egozentrischen Tiefenkarte vor, das die Tiefenkarte der Szene von einer breitwinkligen egozentrischen Fischaugenkamera vorhersagt, während es die Verdeckung des menschlichen Körpers durch ein Netzwerk zur Tiefeninpainting reduziert. Als Nächstes schlagen wir ein szenebewusstes Netzwerk zur Schätzung der Pose vor, das die 2D-Bildmerkmale und die geschätzte Tiefenkarte der Szene in einen Voxelraum projiziert und die 3D-Pose mit einem V2V-Netzwerk regrediert. Die vorkodierte Merkmalsdarstellung bietet eine direkte geometrische Verbindung zwischen den 2D-Bildmerkmalen und der Geometrie der Szene und erleichtert zudem dem V2V-Netzwerk, die vorhergesagte Pose auf Basis der geschätzten Szenengeometrie zu beschränken. Um das Training der oben genannten Netzwerke zu ermöglichen, haben wir außerdem einen synthetischen Datensatz erstellt, den wir EgoGTA nennen, sowie einen Datensatz unter realistischen Bedingungen basierend auf EgoPW, den wir EgoPW-Scene nennen. Die experimentellen Ergebnisse unserer neuen Evaluationssequenzen zeigen, dass die vorhergesagten 3D-Egozentriposen hinsichtlich der Mensch-Szene-Interaktion genau und physikalisch plausibel sind und dass unsere Methode sowohl quantitativ als auch qualitativ den Stand der Technik übertrifft.