HyperAIHyperAI

Command Palette

Search for a command to run...

Effiziente mehraufgabenbasierte Szenenanalyse mit RGB-D-Transformern

Söhnke Benedikt Fischedick Daniel Seichter Robin Schmidt Leonard Rabes Horst-Michael Gross

Zusammenfassung

Die Szenenanalyse ist entscheidend dafür, autonome Systeme wie mobile Roboter in realen Umgebungen betreiben zu können. Die vollständige Verständnis der Szene erfordert jedoch die Lösung mehrerer Aufgaben, wie beispielsweise Panoptic-Segmentation, die Schätzung der Instanz-Orientierung und die Szenenklassifikation. Die Bewältigung dieser Aufgaben unter Berücksichtigung der begrenzten Rechenleistung und Batteriekapazität mobiler Plattformen stellt eine erhebliche Herausforderung dar. Um dieser Herausforderung zu begegnen, stellen wir einen effizienten Ansatz zur mehrfachen Szenenanalyse vor, den wir EMSAFormer nennen, der einen RGB-D-Transformer-basierten Encoder nutzt, um die genannten Aufgaben gleichzeitig zu erfüllen. Unser Ansatz baut auf dem zuvor veröffentlichten EMSANet auf. Wir zeigen jedoch, dass der doppelte CNN-basierte Encoder von EMSANet durch einen einzigen Transformer-basierten Encoder ersetzt werden kann. Dazu untersuchen wir, wie Informationen aus RGB- und Tiefendaten effektiv in einem einzigen Encoder integriert werden können. Um die Inferenzgeschwindigkeit auf robotischen Hardwareplattformen zu beschleunigen, stellen wir eine maßgeschneiderte NVIDIA TensorRT-Erweiterung bereit, die eine hochgradige Optimierung unseres EMSAFormer-Ansatzes ermöglicht. Durch umfangreiche Experimente auf den gängigen Innenraum-Datensätzen NYUv2, SUNRGB-D und ScanNet zeigen wir, dass unser Ansatz eine state-of-the-art-Leistung erreicht und gleichzeitig Inferenzraten von bis zu 39,1 FPS auf einer NVIDIA Jetson AGX Orin 32 GB ermöglicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Effiziente mehraufgabenbasierte Szenenanalyse mit RGB-D-Transformern | Paper | HyperAI