vor 3 Monaten

MV-DETR: Multi-Modality Indoor Object Detection durch Multi-View DEtecton TRansformers

Zichao Dong, Yilin Zhang, Xufeng Huang, Hang Ji, Zhan Shi, Xin Zhan, Junbo Chen

Abstract

Wir stellen einen neuartigen MV-DETR-Pipeline vor, der eine effektive und dennoch effiziente, transformerbasierte Detektionsmethode darstellt. Gegeben Eingabedaten in Form von RGBD, stellen wir fest, dass starke Vortrainingsgewichte für RGB-Daten existieren, während für tiefenbezogene Daten weniger wirksame Ansätze vorliegen. Zunächst argumentieren wir, dass geometrische und texturale Merkmale beide von entscheidender Bedeutung sind und getrennt kodiert werden können. Zweitens stellen wir fest, dass visuelle Texturmerkmale im 3D-Raum im Vergleich zu geometrischen Merkmalen schwieriger zu extrahieren sind. Leider reicht ein einzelnes RGBD-Datensatz mit Tausenden von Datenpunkten nicht aus, um einen differenzierenden Filter zur Extraktion visueller Texturmerkmale zu trainieren. Nicht zuletzt entwickeln wir ein leichtgewichtiges VG-Modul, bestehend aus einem visuellen Textur-Encoder, einem Geometrie-Encoder und einem VG-Connector. Im Vergleich zu vorherigen State-of-the-Art-Verfahren wie V-DETR sind die Vorteile aus den vortrainierten visuellen Encodern deutlich erkennbar. Umfangreiche Experimente auf dem ScanNetV2-Datensatz belegen die Wirksamkeit unserer Methode. Es ist erwähnenswert, dass unsere Methode eine AP von 78 % erreicht und damit eine neue State-of-the-Art-Leistung auf dem ScanNetV2-Benchmark darstellt.