GPV-Pose: Kategoriebasierte Objekt-Pose-Schätzung durch geometriegeleitete punktweise Abstimmung

Während die Schätzungen von 6D-Objekt-Posen kürzlich einen großen Sprung nach vorne gemacht haben, können die meisten Methoden immer noch nur ein einzelnes oder wenige verschiedene Objekte verarbeiten, was ihre Anwendungen einschränkt. Um dieses Problem zu umgehen, wurde die Kategorieebenen-Objekt-Pose-Schätzung kürzlich überarbeitet, die darauf abzielt, die 6D-Pose sowie die 3D-metrische Größe für bisher unbekannte Instanzen aus einer gegebenen Menge von Objektklassen vorherzusagen. Dies ist jedoch eine viel schwierigere Aufgabe aufgrund erheblicher innerklassischer Formunterschiede. Um dieses Problem anzugehen, schlagen wir GPV-Pose vor, einen neuen Ansatz für robuste Kategorieebenen-Pose-Schätzungen, der geometrische Erkenntnisse nutzt, um das Lernen von Kategorieebenen-poseempfindlichen Merkmalen zu verbessern. Zunächst führen wir eine entkoppelte konfidenzbasierte Rotationsdarstellung ein, die eine geometriebewusste Rekonstruktion der zugehörigen Rotationsmatrix ermöglicht. Zweitens schlagen wir ein neues geometriegeleitetes punktweises Abstimmungsverfahren vor, das eine robuste Rückgewinnung des 3D-Objekt-Bounding-Boxes ermöglicht. Schließlich können wir durch den Einsatz dieser verschiedenen Ausgabeströme mehrere geometrische Konsistenzbedingungen durchsetzen, was insbesondere bei nicht-symmetrischen Kategorien die Leistung weiter steigert. GPV-Pose erzielt bessere Ergebnisse als der aktuelle Stand der Technik in gängigen öffentlichen Benchmarks und erreicht fast Echtzeit-Inferenzgeschwindigkeit bei 20 FPS (Frames pro Sekunde).