
초록
우리는 여러 카메라에서 지도 뷰의 의미 분할을 위한 효율적인 주의 기반 모델인 크로스 뷰 트랜스포머(Cross-View Transformers)를 제시합니다. 우리의 아키텍처는 카메라 인식 크로스 뷰 주의 메커니즘을 사용하여 개별 카메라 뷰를 표준적인 지도 뷰 표현으로 암묵적으로 학습합니다. 각 카메라는 내부 및 외부 캘리브레이션에 따라 변하는 위치 임베딩을 사용합니다. 이러한 임베딩은 트랜스포머가 기하학적으로 명시적으로 모델링하지 않고도 서로 다른 뷰 간의 매핑을 학습할 수 있게 합니다. 아키텍처는 각 뷰에 대한 컨볼루셔널 이미지 인코더와 지도 뷰 의미 분할을 추론하기 위한 크로스 뷰 트랜스포머 계층으로 구성됩니다. 우리의 모델은 단순하며, 쉽게 병렬화될 수 있으며, 실시간으로 실행됩니다. 제시된 아키텍처는 nuScenes 데이터셋에서 최신 수준의 성능을 보여주며, 추론 속도는 4배 더 빠릅니다. 코드는 https://github.com/bradyz/cross_view_transformers 에서 확인할 수 있습니다.