vor 17 Tagen

Effiziente mehraufgabenbasierte Szenenanalyse mit RGB-D-Transformern

Söhnke Benedikt Fischedick, Daniel Seichter, Robin Schmidt, Leonard Rabes, Horst-Michael Gross

Abstract

Die Szenenanalyse ist entscheidend dafür, autonome Systeme wie mobile Roboter in realen Umgebungen betreiben zu können. Die vollständige Verständnis der Szene erfordert jedoch die Lösung mehrerer Aufgaben, wie beispielsweise Panoptic-Segmentation, die Schätzung der Instanz-Orientierung und die Szenenklassifikation. Die Bewältigung dieser Aufgaben unter Berücksichtigung der begrenzten Rechenleistung und Batteriekapazität mobiler Plattformen stellt eine erhebliche Herausforderung dar. Um dieser Herausforderung zu begegnen, stellen wir einen effizienten Ansatz zur mehrfachen Szenenanalyse vor, den wir EMSAFormer nennen, der einen RGB-D-Transformer-basierten Encoder nutzt, um die genannten Aufgaben gleichzeitig zu erfüllen. Unser Ansatz baut auf dem zuvor veröffentlichten EMSANet auf. Wir zeigen jedoch, dass der doppelte CNN-basierte Encoder von EMSANet durch einen einzigen Transformer-basierten Encoder ersetzt werden kann. Dazu untersuchen wir, wie Informationen aus RGB- und Tiefendaten effektiv in einem einzigen Encoder integriert werden können. Um die Inferenzgeschwindigkeit auf robotischen Hardwareplattformen zu beschleunigen, stellen wir eine maßgeschneiderte NVIDIA TensorRT-Erweiterung bereit, die eine hochgradige Optimierung unseres EMSAFormer-Ansatzes ermöglicht. Durch umfangreiche Experimente auf den gängigen Innenraum-Datensätzen NYUv2, SUNRGB-D und ScanNet zeigen wir, dass unser Ansatz eine state-of-the-art-Leistung erreicht und gleichzeitig Inferenzraten von bis zu 39,1 FPS auf einer NVIDIA Jetson AGX Orin 32 GB ermöglicht.