HyperAIHyperAI

Command Palette

Search for a command to run...

MV-DETR: Multi-Modality Indoor Object Detection durch Multi-View DEtecton TRansformers

Zichao Dong Yilin Zhang Xufeng Huang Hang Ji Zhan Shi Xin Zhan Junbo Chen

Zusammenfassung

Wir stellen einen neuartigen MV-DETR-Pipeline vor, der eine effektive und dennoch effiziente, transformerbasierte Detektionsmethode darstellt. Gegeben Eingabedaten in Form von RGBD, stellen wir fest, dass starke Vortrainingsgewichte für RGB-Daten existieren, während für tiefenbezogene Daten weniger wirksame Ansätze vorliegen. Zunächst argumentieren wir, dass geometrische und texturale Merkmale beide von entscheidender Bedeutung sind und getrennt kodiert werden können. Zweitens stellen wir fest, dass visuelle Texturmerkmale im 3D-Raum im Vergleich zu geometrischen Merkmalen schwieriger zu extrahieren sind. Leider reicht ein einzelnes RGBD-Datensatz mit Tausenden von Datenpunkten nicht aus, um einen differenzierenden Filter zur Extraktion visueller Texturmerkmale zu trainieren. Nicht zuletzt entwickeln wir ein leichtgewichtiges VG-Modul, bestehend aus einem visuellen Textur-Encoder, einem Geometrie-Encoder und einem VG-Connector. Im Vergleich zu vorherigen State-of-the-Art-Verfahren wie V-DETR sind die Vorteile aus den vortrainierten visuellen Encodern deutlich erkennbar. Umfangreiche Experimente auf dem ScanNetV2-Datensatz belegen die Wirksamkeit unserer Methode. Es ist erwähnenswert, dass unsere Methode eine AP von 78 % erreicht und damit eine neue State-of-the-Art-Leistung auf dem ScanNetV2-Benchmark darstellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MV-DETR: Multi-Modality Indoor Object Detection durch Multi-View DEtecton TRansformers | Paper | HyperAI