HyperAIHyperAI
vor 11 Tagen

PerspectiveNet: 3D-Objekterkennung aus einem einzelnen RGB-Bild mittels Perspektivpunkte

Siyuan Huang, Yixin Chen, Tao Yuan, Siyuan Qi, Yixin Zhu, Song-Chun Zhu
PerspectiveNet: 3D-Objekterkennung aus einem einzelnen RGB-Bild mittels Perspektivpunkte
Abstract

Die Detektion von 3D-Objekten aus einer einzigen RGB-Bildaufnahme ist intrinsisch mehrdeutig und erfordert daher geeignete Vorwissen sowie intermediäre Darstellungen als Einschränkungen, um die Unsicherheiten zu reduzieren und die Konsistenz zwischen der 2D-Bildebene und dem 3D-Weltkoordinatensystem zu verbessern. Um dieser Herausforderung zu begegnen, schlagen wir vor, Perspektivpunkte als eine neue intermediäre Darstellung für die 3D-Objektdetektion einzuführen. Diese Perspektivpunkte sind definiert als die 2D-Projektionen lokaler Manhattan-3D-Keypoints, die zur Lokalisierung eines Objekts dienen, und erfüllen geometrische Einschränkungen, die durch die perspektivische Projektion vorgegeben sind. Weiterhin entwickeln wir PerspectiveNet, ein end-to-end trainierbares Modell, das gleichzeitig die 2D-Bounding Box, die 2D-Perspektivpunkte und die 3D-Objektkasten für jedes Objekt aus einem einzigen RGB-Bild ermittelt. PerspectiveNet weist drei wesentliche Vorteile auf: (i) Die Schätzung der 3D-Objektkästen basiert auf den Perspektivpunkten und schließt die Lücke zwischen 2D- und 3D-Bounding Boxen, ohne dass kategorie-spezifische Vorwissen über 3D-Formen erforderlich sind. (ii) Die Vorhersage der Perspektivpunkte erfolgt mittels eines Vorlagen-basierten Ansatzes, und eine Perspektivverlustfunktion wird formuliert, um die perspektivischen Einschränkungen zu gewährleisten. (iii) Die Konsistenz zwischen den 2D-Perspektivpunkten und den 3D-Bounding Boxen wird durch eine differenzierbare projizierende Funktion aufrechterhalten. Experimente auf dem SUN RGB-D-Datensatz zeigen, dass die vorgeschlagene Methode bestehende RGB-basierte Ansätze für die 3D-Objektdetektion erheblich übertrifft.

PerspectiveNet: 3D-Objekterkennung aus einem einzelnen RGB-Bild mittels Perspektivpunkte | Neueste Forschungsarbeiten | HyperAI