HyperAIHyperAI

Command Palette

Search for a command to run...

PerspectiveNet: 3D-Objekterkennung aus einem einzelnen RGB-Bild mittels Perspektivpunkte

Siyuan Huang Yixin Chen Tao Yuan Siyuan Qi Yixin Zhu Song-Chun Zhu

Zusammenfassung

Die Detektion von 3D-Objekten aus einer einzigen RGB-Bildaufnahme ist intrinsisch mehrdeutig und erfordert daher geeignete Vorwissen sowie intermediäre Darstellungen als Einschränkungen, um die Unsicherheiten zu reduzieren und die Konsistenz zwischen der 2D-Bildebene und dem 3D-Weltkoordinatensystem zu verbessern. Um dieser Herausforderung zu begegnen, schlagen wir vor, Perspektivpunkte als eine neue intermediäre Darstellung für die 3D-Objektdetektion einzuführen. Diese Perspektivpunkte sind definiert als die 2D-Projektionen lokaler Manhattan-3D-Keypoints, die zur Lokalisierung eines Objekts dienen, und erfüllen geometrische Einschränkungen, die durch die perspektivische Projektion vorgegeben sind. Weiterhin entwickeln wir PerspectiveNet, ein end-to-end trainierbares Modell, das gleichzeitig die 2D-Bounding Box, die 2D-Perspektivpunkte und die 3D-Objektkasten für jedes Objekt aus einem einzigen RGB-Bild ermittelt. PerspectiveNet weist drei wesentliche Vorteile auf: (i) Die Schätzung der 3D-Objektkästen basiert auf den Perspektivpunkten und schließt die Lücke zwischen 2D- und 3D-Bounding Boxen, ohne dass kategorie-spezifische Vorwissen über 3D-Formen erforderlich sind. (ii) Die Vorhersage der Perspektivpunkte erfolgt mittels eines Vorlagen-basierten Ansatzes, und eine Perspektivverlustfunktion wird formuliert, um die perspektivischen Einschränkungen zu gewährleisten. (iii) Die Konsistenz zwischen den 2D-Perspektivpunkten und den 3D-Bounding Boxen wird durch eine differenzierbare projizierende Funktion aufrechterhalten. Experimente auf dem SUN RGB-D-Datensatz zeigen, dass die vorgeschlagene Methode bestehende RGB-basierte Ansätze für die 3D-Objektdetektion erheblich übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PerspectiveNet: 3D-Objekterkennung aus einem einzelnen RGB-Bild mittels Perspektivpunkte | Paper | HyperAI