HyperAIHyperAI

Command Palette

Search for a command to run...

DSGN++: Die Nutzung von visuellen und räumlichen Beziehungen für stereo-basierte 3D-Detektoren

Yilun Chen, Student Member, IEEE, Shijia Huang, Student Member, IEEE, Shu Liu, Member, IEEE, Bei Yu, Member, IEEE, Jiaya Jia, Fellow, IEEE

Zusammenfassung

Kamera-basierte 3D-Objekterkennungssysteme werden aufgrund ihrer breiteren Verbreitung und geringeren Kosten im Vergleich zu LiDAR-Sensoren geschätzt. Wir untersuchen zunächst den Stereo-Detektor DSGN hinsichtlich seiner Methoden zur Konstruktion von Stereo-Volumina, die sowohl die 3D-Geometrie als auch die Semantik darstellen. Wir verbessern das Stereomodell und stellen eine erweiterte Version, DSGN++, vor, die darauf abzielt, den effektiven Informationsfluss durch den 2D-zu-3D-Prozess in drei wesentlichen Aspekten zu steigern. Erstens, um die 2D-Information effektiv in ein Stereo-Volumen zu übertragen, schlagen wir eine tiefenweise Ebenenabtastung (Depth-wise Plane Sweeping, DPS) vor, die dichtere Verbindungen ermöglicht und tiefengesteuerte Merkmale extrahiert. Zweitens, um unterschiedlich weit voneinander entfernte Merkmale zu erfassen, präsentieren wir ein neues Stereo-Volumen – das Dual-View-Stereo-Volumen (DSV) – das Frontansichts- und Topansichts-Merkmale integriert und Subvoxel-Tiefe im Kamerabildausschnitt rekonstruiert. Drittens, da der Vordergrundbereich im 3D-Raum weniger dominierend wird, schlagen wir eine multimodale Datenbearbeitungsstrategie – Stereo-LiDAR Copy-Paste – vor, die die Modalkonformität sicherstellt und die Dateneffizienz verbessert. Ohne zusätzliche Verzierungen zeigen umfangreiche Experimente in verschiedenen Modalitätskonfigurationen auf dem bekannten KITTI-Benchmark, dass unsere Methode für alle Kategorien konsistent bessere Ergebnisse als andere kamera-basierte 3D-Detektoren erzielt. Der Quellcode ist unter https://github.com/chenyilun95/DSGN2 verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp