17일 전

RGB-D 트랜스포머를 활용한 효율적인 다중 작업 장면 분석

Söhnke Benedikt Fischedick, Daniel Seichter, Robin Schmidt, Leonard Rabes, Horst-Michael Gross
RGB-D 트랜스포머를 활용한 효율적인 다중 작업 장면 분석
초록

장면 분석은 모바일 로봇과 같은 자율 시스템이 실제 환경에서 작동할 수 있도록 하기 위해 필수적인 요소이다. 그러나 장면에 대한 포괄적인 이해를 얻기 위해서는 판토피크 세그멘테이션, 인스턴스 방향 추정, 장면 분류와 같은 여러 작업을 동시에 해결해야 한다. 이러한 작업들을 모바일 플랫폼에서 제한된 컴퓨팅 성능과 배터리 용량을 가진 환경에서 수행하는 것은 큰 도전 과제이다. 이 문제를 해결하기 위해, RGB-D 트랜스포머 기반 인코더를 사용하여 위의 여러 작업을 동시에 수행할 수 있는 효율적인 다중 작업 장면 분석 방법인 EMSAFormer을 제안한다. 본 연구는 이전에 발표된 EMSANet의 개념을 기반으로 하고 있으나, EMSANet의 이중 CNN 기반 인코더를 단일 트랜스포머 기반 인코더로 대체할 수 있음을 입증한다. 이를 위해 RGB 및 깊이 데이터의 정보를 하나의 인코더 내에서 효과적으로 통합하는 방법을 탐구하였다. 로봇 하드웨어에서 추론 속도를 가속화하기 위해, 본 EMSAFormer 접근법에 최적화된 사용자 정의 NVIDIA TensorRT 확장 기능을 제공한다. 일반적으로 사용되는 실내 데이터셋인 NYUv2, SUNRGB-D, ScanNet을 대상으로 실시한 광범위한 실험을 통해, 본 방법이 최신 기술 수준의 성능을 달성하면서도 NVIDIA Jetson AGX Orin 32GB에서 최대 39.1 FPS의 추론 속도를 유지함을 확인하였다.

RGB-D 트랜스포머를 활용한 효율적인 다중 작업 장면 분석 | 최신 연구 논문 | HyperAI초신경