HyperAIHyperAI

Command Palette

Search for a command to run...

3DMV: Gemeinsame 3D-Multi-View-Vorhersage für die 3D-Semantische Szenensegmentierung

Dai Angela Nie&#xdf ner Matthias

Zusammenfassung

Wir stellen 3DMV vor, eine neuartige Methode zur 3D-semantischen Szenensegmentierung von RGB-D-Scans in Innenräumen, die auf einem gemeinsamen 3D-Mehrbild-Vorhersage-Netzwerk basiert. Im Gegensatz zu bestehenden Ansätzen, die entweder geometrische Daten oder RGB-Daten als Eingabe für diese Aufgabe verwenden, kombinieren wir beide Datentypen in einer gemeinsamen, end-to-end-Netzarchitektur. Anstatt die Farbdaten lediglich in ein volumetrisches Gitter zu projizieren und ausschließlich im 3D-Raum zu arbeiten – was zu unzureichender Detailgenauigkeit führen würde – extrahieren wir zunächst Merkmalskarten aus den zugehörigen RGB-Bildern. Diese Merkmale werden anschließend mittels einer differenzierbaren Rückprojektionsschicht in das volumetrische Merkmalsgitter eines 3D-Netzwerks abgebildet. Da unser Ziel Szenarien mit 3D-Scans ist, die möglicherweise eine große Anzahl von Bildern umfassen, verwenden wir eine Mehraufnahme-Pooling-Strategie, um eine variable Anzahl von RGB-Eingabebildern zu verarbeiten. Diese lernbasierte Kombination von RGB- und geometrischen Merkmalen in unserer gemeinsamen 2D-3D-Architektur erreicht signifikant bessere Ergebnisse als bestehende Baselines. Beispielsweise steigt die Genauigkeit unserer Endlösung im ScanNet-3D-Segmentierungsbenchmark gegenüber bestehenden volumetrischen Architekturen von 52,8 % auf 75 %.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp