HyperAIHyperAI
vor 2 Monaten

MVX-Net: Multimodales VoxelNet für 3D-Objekterkennung

Vishwanath A. Sindagi; Yin Zhou; Oncel Tuzel
MVX-Net: Multimodales VoxelNet für 3D-Objekterkennung
Abstract

Viele kürzlich veröffentlichte Arbeiten im Bereich der 3D-Objekterkennung haben sich auf die Entwicklung von Neuronalnetz-Architekturen konzentriert, die Punktwolken-Daten verarbeiten können. Obwohl diese Ansätze vielversprechende Ergebnisse zeigen, basieren sie in der Regel auf einer einzelnen Modalität und können Informationen aus anderen Modalitäten, wie etwa Kameras, nicht nutzen. Obwohl einige Ansätze Daten aus verschiedenen Modalitäten fusionieren, entweder durch eine komplizierte Pipeline zur sequenziellen Verarbeitung oder durch späte Fusion, sind sie nicht in der Lage, Interaktionen zwischen verschiedenen Modalitäten in frühen Stadien zu lernen. In dieser Arbeit stellen wir PointFusion und VoxelFusion vor: zwei einfache, aber effektive Early-Fusion-Ansätze zur Kombination der RGB- und Punktwolken-Modalitäten, indem wir die kürzlich eingeführte VoxelNet-Architektur nutzen. Die Auswertung am KITTI-Datensatz zeigt erhebliche Leistungsverbesserungen im Vergleich zu Ansätzen, die ausschließlich Punktwolken-Daten verwenden. Darüber hinaus liefert das vorgeschlagene Verfahren Ergebnisse, die mit den besten multimodalen Algorithmen vergleichbar sind, wobei es in fünf von sechs Kategorien der Vogelperspektiv- und 3D-Erkennung des KITTI-Benchmarks den zweiten Platz belegt – und zwar mit einem einfachen Einzelschritt-Netzwerk.

MVX-Net: Multimodales VoxelNet für 3D-Objekterkennung | Neueste Forschungsarbeiten | HyperAI