vor 11 Tagen

TR3D: Hin zu einer Echtzeit-Innenraum-3D-Objekterkennung

Danila Rukhovich, Anna Vorontsova, Anton Konushin

Abstract

Kürzlich haben spärliche 3D-Faltungen die 3D-Objekterkennung verändert. Im Vergleich zu votingsbasierten Ansätzen sind 3D-CNNs speichereffizienter und skalieren besser auf große Szenen. Dennoch besteht weiterhin Verbesserungspotenzial. Mit einem bewussten, praxisorientierten Ansatz zur Problemlösung analysieren wir die Leistung solcher Methoden und identifizieren deren Schwächen. Durch schrittweise Anpassungen, die jeweils eine der identifizierten Probleme beheben, entwickeln wir TR3D: ein schnelles, vollständig faltungsbasiertes 3D-Objekterkennungsmodell, das end-to-end trainiert wird und state-of-the-art-Ergebnisse auf den Standardbenchmarks ScanNet v2, SUN RGB-D und S3DIS erzielt. Darüber hinaus nutzen wir eine frühe Fusion von 2D- und 3D-Features, um sowohl Punktewolken- als auch RGB-Eingaben optimal zu nutzen. Wir integrieren unseren Fusionsmodul in herkömmliche 3D-Objekterkennungsverfahren, um sie multimodal zu machen, und demonstrieren eine beeindruckende Leistungssteigerung. Unser Modell mit früher Feature-Fusion, das wir TR3D+FF nennen, übertrifft bestehende Ansätze für die 3D-Objekterkennung auf dem SUN RGB-D-Datensatz. Insgesamt sind sowohl TR3D als auch TR3D+FF nicht nur präzise, sondern auch leichtgewichtig, speichereffizient und schnell – und markieren somit einen weiteren Meilenstein auf dem Weg zur Echtzeit-3D-Objekterkennung. Der Quellcode ist unter https://github.com/SamsungLabs/tr3d verfügbar.