17일 전

Trans4Trans: 실세계 내비게이션 지원을 위한 투명 객체 및 의미적 장면 세그멘테이션을 위한 효율적인 Transformer

Jiaming Zhang, Kailun Yang, Angela Constantinescu, Kunyu Peng, Karin Müller, Rainer Stiefelhagen
Trans4Trans: 실세계 내비게이션 지원을 위한 투명 객체 및 의미적 장면 세그멘테이션을 위한 효율적인 Transformer
초록

투명한 물체, 예를 들어 유리 벽이나 문은 시각 장애 또는 낮은 시력이 있는 사람들의 이동을 방해하는 건축적 장애물이다. 예를 들어, 유리 문 뒤의 공간은 정확히 인지하고 상호작용하지 않는 한 접근이 불가능하다. 그러나 기존의 보조 기술은 이러한 안전에 중요한 투명 물체의 세그멘테이션을 거의 다루지 않는다. 본 논문에서는 일반 물체와 투명 물체 모두를 세그멘테이션할 수 있는 새로운 이중 헤드 트랜스포머 기반의 투명성 인식 모델(Trans4Trans)을 탑재한 웨어러블 시스템을 제안한다. 이 시스템은 두 개의 밀집 세그멘테이션 결과를 깊이 정보와 결합하여 사용자가 안전하게 이동할 수 있도록 지원하고, 투명 장애물을 효과적으로 극복하도록 돕는다. 또한 트랜스포머 기반 디코더에서 다중 스케일 특징을 해석하기 위해 경량 트랜스포머 파싱 모듈(Transformer Parsing Module, TPM)을 제안한다. TPM의 도움을 받아, 두 개의 디코더는 대응하는 데이터셋에서 공동 학습을 수행함으로써 강건성을 확보하면서도, 휴대용 GPU에서 효율성을 유지하며 계산량 증가를 거의 느끼지 않게 된다. 전체 Trans4Trans 모델은 대칭적인 인코더-디코더 아키텍처로 구성되어 있으며, Stanford2D3D 및 Trans10K-v2 데이터셋의 테스트 세트에서 최신 기술을 초월하는 성능을 보였으며, 각각 mIoU 45.13%와 75.14%를 달성하였다. 실내 및 실외 환경에서 수행한 사용자 연구와 다양한 사전 테스트를 통해 본 보조 시스템의 사용성과 신뢰성이 광범위하게 검증되었다. 동시에 Trans4Trans 모델은 자동차 운전 환경 데이터셋에서도 뛰어난 성능을 보였다. 일반 환경, 악천후, 교통 사고 상황을 반영한 Cityscapes, ACDC, DADA-seg 데이터셋에서 각각 mIoU 81.5%, 76.3%, 39.2%의 성능을 기록하며, 실제 교통 응용 분야에서의 높은 효율성과 강건성을 입증하였다.

Trans4Trans: 실세계 내비게이션 지원을 위한 투명 객체 및 의미적 장면 세그멘테이션을 위한 효율적인 Transformer | 최신 연구 논문 | HyperAI초신경