Command Palette
Search for a command to run...
Generative Kategorie-Level-Form- und Pose-Schätzung mit semantischen Primitiven
Generative Kategorie-Level-Form- und Pose-Schätzung mit semantischen Primitiven
Guanglin Li Yifeng Li Zhichao Ye Qihang Zhang Tao Kong Zhaopeng Cui Guofeng Zhang
Zusammenfassung
Die Befähigung autonomer Agenten mit einer 3D-Verständnis für alltägliche Objekte stellt eine große Herausforderung in der Robotik dar. Bei der Erforschung unbekannter Umgebungen sind die bestehenden Methoden zur Objekt-Pose-Schätzung aufgrund der Vielfalt von Objektformen noch nicht zufriedenstellend. In dieser Arbeit schlagen wir ein neues Framework vor, das es ermöglicht, die Form und Pose von Objekten auf Kategorieebene aus einem einzelnen RGB-D-Bild zu schätzen. Um die innerkategorische Variation zu bewältigen, verwenden wir eine semantische Primitive-Darstellung, die verschiedene Formen in einen einheitlichen latenten Raum kodiert. Dies ist der Schlüssel, um verlässliche Korrespondenzen zwischen beobachteten Punktwolken und geschätzten Formen herzustellen. Anschließend nutzen wir einen SIM(3)-invarianten Formdeskriptor, um die Form und Pose eines Objekts elegant zu entkoppeln, was die latente Formoptimierung von Zielobjekten in beliebigen Posen unterstützt. Ausführliche Experimente zeigen, dass die vorgeschlagene Methode eine Spitzenleistung (SOTA) bei der Pose-Schätzung erzielt und eine bessere Generalisierung in realweltlichen Datensätzen bietet. Der Code und ein Video sind unter https://zju3dv.github.io/gCasp verfügbar.