Epipolar-Transformer

Ein verbreiteter Ansatz zur Lokalisierung von 3D-Gelenken in einer synchronisierten und kalibrierten Mehransicht-Umgebung besteht aus zwei Schritten: (1) Anwendung eines 2D-Detektors separat auf jede Ansicht, um die Gelenke in 2D zu lokalisieren, und (2) Durchführung einer robusten Triangulation auf den 2D-Detektionen aus jeder Ansicht, um die 3D-Gelenkpositionen zu ermitteln. In Schritt 1 ist der 2D-Detektor jedoch auf die Lösung herausfordernder Fälle beschränkt, die möglicherweise besser in 3D, anstatt rein in 2D, behandelt werden könnten, beispielsweise bei Verdeckungen oder schrägen Blickwinkeln, ohne dass 3D-Informationen genutzt werden. Daher schlagen wir einen differenzierbaren „Epipolar-Transformer“ vor, der es dem 2D-Detektor ermöglicht, 3D-orientierte Merkmale zu nutzen, um die 2D-Gelenklokalisierung zu verbessern. Die Grundidee ist folgende: Gegeben eine 2D-Position p in der aktuellen Ansicht, soll zunächst deren entsprechende Position p′ in einer benachbarten Ansicht gefunden werden, und anschließend die Merkmale an p′ mit den Merkmalen an p kombiniert werden, um ein 3D-orientiertes Merkmal an der Position p zu erzeugen. Inspiriert von der Stereo-Abbildung nutzt der Epipolar-Transformer epipolare Einschränkungen und Merkmalsübereinstimmung, um die Merkmale an p′ zu approximieren. Experimente auf den Datensätzen InterHand und Human3.6M zeigen, dass unser Ansatz konsistente Verbesserungen gegenüber den Baselines erreicht. Insbesondere im Fall, dass keine externen Daten verwendet werden, übertrifft unser Human3.6M-Modell, das mit einem ResNet-50-Backbone und einer Bildgröße von 256×256 trainiert wurde, die Stand der Technik um 4,23 mm und erreicht eine MPJPE von 26,9 mm.