HyperAIHyperAI
vor 2 Monaten

FS-Net: Schnelles formbasiertes Netzwerk für die Kategorieebene 6D Objekt-Pose-Schätzung mit entkoppeltem Rotationsmechanismus

Chen, Wei ; Jia, Xi ; Chang, Hyung Jin ; Duan, Jinming ; Shen, Linlin ; Leonardis, Ales
FS-Net: Schnelles formbasiertes Netzwerk für die Kategorieebene 6D Objekt-Pose-Schätzung mit entkoppeltem Rotationsmechanismus
Abstract

In dieser Arbeit konzentrieren wir uns auf die Kategorieebenen-Schätzung von 6D-Pose und Größe aus monokularen RGB-D-Bildern. Vorherige Methoden leiden unter ineffizientem Extraktionsprozess von Kategorieebenen-Pose-Features, was zu geringer Genauigkeit und langsamer Inferenzgeschwindigkeit führt. Um dieses Problem anzugehen, schlagen wir ein schnelles formbasiertes Netzwerk (FS-Net) vor, das effiziente Kategorieebenen-Feature-Extraktion für die 6D-Pose-Schätzung ermöglicht. Zunächst entwickeln wir einen orientierungsbewussten Autoencoder mit 3D-Graph-Konvolution zur Extraktion latenter Features. Das gelernte latente Feature ist dank der Verschiebungsinvarianz- und Skalierungsinvarianzeigenschaften der 3D-Graph-Konvolution unempfindlich gegenüber Punktschiebungen und Objektgröße. Anschließend, um Kategorieebnen-Rotationsinformationen effizient aus dem latenten Feature zu dekodieren, schlagen wir einen neuen entkoppelten Rotationsmechanismus vor, der zwei Dekoder verwendet, um sich ergänzend auf die Rotationsinformationen zu konzentrieren. Gleichzeitig schätzen wir Translation und Größe durch zwei Residuen: den Unterschied zwischen dem Mittelpunkt der Objektpunkte und der wahren Translation sowie den Unterschied zwischen dem Durchschnittsmaß der Kategorie und der wahren Größe des Objekts. Schließlich, um die Generalisierungsfähigkeit von FS-Net zu erhöhen, schlagen wir eine online basierte Box-Cage-3D-Deformationsmechanismus vor, um die Trainingsdaten zu erweitern. Ausführliche Experimente auf zwei Benchmark-Datensätzen zeigen, dass das vorgeschlagene Verfahren sowohl in der Kategorieebenen- als auch in der Instanzebenen-Schätzung von 6D-Objekt-Posen den aktuellen Stand der Technik übertreffen kann. Insbesondere bei der Kategorieebenen-Pose-Schätzung erreicht unsere Methode ohne zusätzliche synthetische Daten eine Verbesserung von 6,3 % im NOCS-REAL-Datensatz.请注意,我已将 "Box-Cage" 翻译为 "Box-Cage",因为这是一个特定的技术术语,通常在德语文献中也会保留英文原词。如果您有其他偏好,请告知。

FS-Net: Schnelles formbasiertes Netzwerk für die Kategorieebene 6D Objekt-Pose-Schätzung mit entkoppeltem Rotationsmechanismus | Neueste Forschungsarbeiten | HyperAI