
초록
자율주행을 위한 보완 센서의 표현을 어떻게 통합해야 할까? 기하학 기반 센서 융합 기법은 물체 탐지 및 운동 예측과 같은 인식 작업에서 큰 잠재력을 보여주고 있다. 그러나 실제 주행 과제에서는 3차원 장면의 전반적 맥락이 핵심적인데, 예를 들어 교통 신호등의 상태 변화는 그 신호등으로부터 기하학적으로 멀리 떨어진 차량의 행동에도 영향을 미칠 수 있다. 따라서 기하학적 정보만으로는 엔드투엔드 주행 모델에서 표현을 효과적으로 융합하기에는 부족할 수 있다. 본 연구에서는 기존의 센서 융합 방법에 기반한 모방 학습 정책이 동적 에이전트가 밀집한 복잡한 시나리오, 예를 들어 제어되지 않은 교차로에서 여러 방향에서 접근하는 교통 흐름을 처리해야 하는 상황과 같은 전역적 맥락 인식이 필요한 경우 성능이 저하됨을 실험적으로 입증한다. 이를 해결하기 위해, 이미지와 LiDAR 표현을 주의 메커니즘(attention)을 활용하여 통합하는 새로운 다중 모달 융합 트랜스포머인 TransFuser를 제안한다. 복잡한 도시 환경에서의 시나리오를 포함한 도시 주행 시뮬레이터인 CARLA를 활용하여 제안한 방법의 유효성을 실험적으로 검증하였다. 제안 방법은 기존 기하학 기반 융합 대비 사고율을 76% 감소시키며, 최신 기술 수준의 주행 성능을 달성하였다.