17 天前

基于RGB-D Transformer的高效多任务场景分析

Söhnke Benedikt Fischedick, Daniel Seichter, Robin Schmidt, Leonard Rabes, Horst-Michael Gross
基于RGB-D Transformer的高效多任务场景分析
摘要

场景分析对于使自主系统(如移动机器人)在真实环境中运行至关重要。然而,要全面理解场景,需要同时解决多项任务,例如全景分割(panoptic segmentation)、实例方向估计(instance orientation estimation)以及场景分类(scene classification)。在移动平台计算资源和电池容量有限的情况下,同时完成这些任务极具挑战性。为应对这一挑战,本文提出一种高效的多任务场景分析方法——EMSAFormer,该方法基于RGB-D Transformer编码器,能够同步执行上述各项任务。本方法在先前发表的EMSANet基础上进行改进,但本文证明,EMSANet中采用的双CNN编码器结构可被单一Transformer编码器所替代。为实现这一改进,我们深入研究了如何在单个编码器中高效融合RGB图像与深度信息。为进一步提升在机器人硬件上的推理速度,我们开发了一款定制化的NVIDIA TensorRT扩展,显著优化了EMSAFormer的推理性能。在广泛使用的室内数据集NYUv2、SUNRGB-D和ScanNet上的大量实验表明,本方法在保持实时性的同时,达到了当前最优的性能水平,且在NVIDIA Jetson AGX Orin 32 GB设备上实现了高达39.1 FPS的推理速度。

基于RGB-D Transformer的高效多任务场景分析 | 最新论文 | HyperAI超神经