MapTR: 온라인 벡터화된 HD 맵 구축을 위한 구조화된 모델링 및 학습

고해상도(HD) 지도는 주행 환경에 대한 풍부하고 정확한 정보를 제공하여 자율 주행 시스템의 계획 단계에서 필수적인 구성 요소로 작용합니다. 본 연구에서는 효율적인 온라인 벡터화된 HD 지도 생성을 위한 구조화된 엔드투엔드 트랜스포머인 MapTR을 제시합니다. 우리는 일련의 동등한 순열(permutation)을 가진 점 집합으로 지도 요소를 모델링하는 통합된 순열-동등 모델링 접근 방식을 제안합니다. 이 방법은 지도 요소의 형태를 정확히 설명하고 학습 과정을 안정화시킵니다. 또한, 구조화된 지도 정보를 유연하게 인코딩하기 위해 계층적 쿼리 임베딩 방식을 설계하였으며, 지도 요소 학습을 위해 계층적 이분 매칭(bipartite matching)을 수행하였습니다.MapTR은 nuScenes 데이터셋에서 기존의 벡터화된 지도 생성 접근 방식들 중 카메라 입력만으로 최고의 성능과 효율성을 달성하였습니다. 특히, MapTR-nano는 RTX 3090 그래픽 카드에서 실시간 추론 속도($25.1$ FPS)를 보여주며, 기존 최신 카메라 기반 방법보다 $8\times$ 더 빠르면서 mAP가 $5.0$ 높습니다. 기존 최신 다중 모달(multi-modality) 방법과 비교할 때에도, MapTR-nano는 mAP가 $0.7$ 높으며, MapTR-tiny는 mAP가 $13.5$ 높고 추론 속도가 $3\times$ 더 빠릅니다. 다양한 질적 결과들은 MapTR이 복잡하고 다양한 주행 환경에서 안정적이고 견고한 지도 생성 품질을 유지함을 보여줍니다. MapTR은 자율 주행 분야에서 큰 응용 가치를 가지고 있습니다. 코드와 추가적인 데모는 \url{https://github.com/hustvl/MapTR}에서 확인할 수 있습니다.