vor 11 Tagen

ImGeoNet: Bildinduzierte geometriebewusste Voxel-Darstellung für die Multiview-3D-Objekterkennung

Tao Tu, Shun-Po Chuang, Yu-Lun Liu, Cheng Sun, Ke Zhang, Donna Roy, Cheng-Hao Kuo, Min Sun

Abstract

Wir stellen ImGeoNet vor, einen mehransichtigen, auf Bildern basierenden Rahmen für die 3D-Objekterkennung, der einen 3D-Raum durch eine geometriebewusste Voxel-Darstellung, die aus Bildern induziert wird, modelliert. Im Gegensatz zu früheren Methoden, die 2D-Features ohne Berücksichtigung der Geometrie in 3D-Voxels aggregieren, lernt ImGeoNet, Geometrie aus mehreren Ansichten zu induzieren, um die Verwirrung durch Voxel des freien Raums zu verringern. Während der Inferenzphase sind lediglich Bilder aus mehreren Ansichten erforderlich. Zudem kann durch unsere Darstellung ein leistungsfähiger vortrainierter 2D-Feature-Extractor effizient genutzt werden, was zu einer robusteren Leistung führt. Um die Wirksamkeit von ImGeoNet zu evaluieren, führen wir quantitative und qualitative Experimente auf drei Innenraum-Datensätzen durch: ARKitScenes, ScanNetV2 und ScanNet200. Die Ergebnisse zeigen, dass ImGeoNet auf allen drei Datensätzen die aktuell beste mehransichtige, bildbasierte Methode, ImVoxelNet, hinsichtlich der Erkennungsgenauigkeit übertrifft. Darüber hinaus zeigt ImGeoNet eine hervorragende Dateneffizienz, indem es Ergebnisse erzielt, die mit denen von ImVoxelNet bei 100 Ansichten vergleichbar sind, jedoch nur 40 Ansichten benötigt. Zudem deuten unsere Studien darauf hin, dass die von uns vorgeschlagene, aus Bildern induzierte geometriebewusste Darstellung es bildbasierten Methoden ermöglicht, in zwei praktischen Szenarien eine überlegene Erkennungsgenauigkeit zu erreichen im Vergleich zum wegweisenden punktwolkenbasierten Ansatz VoteNet: (1) Szenarien mit spärlichen und verrauschten Punktwolken, wie beispielsweise in ARKitScenes, und (2) Szenarien mit vielfältigen Objektklassen, insbesondere bei kleinen Objekten, wie im Fall von ScanNet200.