11일 전
V2X-ViT: 비전 트랜스포머를 활용한 차량 간 협업 인지(Vehicle-to-Everything Cooperative Perception)
Runsheng Xu, Hao Xiang, Zhengzhong Tu, Xin Xia, Ming-Hsuan Yang, Jiaqi Ma

초록
본 논문에서는 자율주행차의 인지 성능 향상을 위해 Vehicle-to-Everything(V2X) 통신 기술을 적용하는 방안을 탐구한다. 우리는 새로운 비전 트랜스포머( vision Transformer)를 활용하여 V2X 통신 기반의 강건한 협업 인지 프레임워크를 제안한다. 구체적으로, 도로상의 에이전트(즉, 차량 및 인프라) 간 정보를 효과적으로 융합하기 위해 종합적인 주의력 모델인 V2X-ViT를 구축하였다. V2X-ViT는 이질적인 다중 에이전트 자기 주의력(self-attention)과 다중 스케일 윈도우 자기 주의력을 교차 배치하여 구성되어 있으며, 이는 에이전트 간 상호작용과 각 에이전트의 공간적 관계를 효과적으로 포착할 수 있다. 이러한 핵심 모듈들은 통합된 트랜스포머 아키텍처 내에서 설계되어, 비동기 정보 공유, 자세 오차, V2X 구성 요소의 이질성 등 일반적인 V2X 도전 과제를 효과적으로 다룰 수 있도록 한다. 제안된 방법의 타당성을 검증하기 위해, CARLA와 OpenCDA를 사용하여 대규모 V2X 인지 데이터셋을 구축하였다. 광범위한 실험 결과를 통해 V2X-ViT가 3차원 객체 탐지에서 새로운 최고 성능을 달성하였으며, 극한의 노이즈 환경에서도 강건한 성능을 보임을 입증하였다. 코드는 https://github.com/DerrickXuNu/v2x-vit 에서 공개되어 있다.