HyperAIHyperAI

Command Palette

Search for a command to run...

ImVoxelNet: Bild-zu-Voxel-Projektion für monokulare und mehrere Ansichten allgemeinzweckorientierte 3D-Objekterkennung

Danila Rukhovich Anna Vorontsova Anton Konushin

Zusammenfassung

In diesem Paper führen wir die Aufgabe der multi-view-basierten 3D-Objektdetektion auf RGB-Bildern als ein end-to-end-Optimierungsproblem ein. Um dieses Problem zu lösen, stellen wir ImVoxelNet vor, eine neuartige vollständig konvolutionale Methode zur 3D-Objektdetektion, die auf monokularen oder multi-view RGB-Bildern basiert. Die Anzahl der monokularen Bilder pro multi-view-Eingabe kann während des Trainings und der Inferenz variieren; tatsächlich kann diese Zahl für jede multi-view-Eingabe unterschiedlich sein. ImVoxelNet bewältigt erfolgreich sowohl Innen- als auch Außenbereichsszenen, was es allgemein verwendbar macht. Insbesondere erzielt es state-of-the-art Ergebnisse bei der Fahrzeugdetektion auf den KITTI-(monokular) und nuScenes-(multi-view)-Benchmarks unter allen Methoden, die RGB-Bilder als Eingabe akzeptieren. Zudem übertrifft es bestehende RGB-basierte Ansätze zur 3D-Objektdetektion auf dem SUN RGB-D-Datensatz. Auf ScanNet etabliert ImVoxelNet eine neue Benchmark für die multi-view 3D-Objektdetektion. Der Quellcode und die trainierten Modelle sind unter https://github.com/saic-vul/imvoxelnet verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp