2달 전

PETRv2: 다중 카메라 이미지에서의 3D 인식을 위한 통합 프레임워크

Liu, Yingfei ; Yan, Junjie ; Jia, Fan ; Li, Shuailin ; Gao, Aqi ; Wang, Tiancai ; Zhang, Xiangyu ; Sun, Jian
PETRv2: 다중 카메라 이미지에서의 3D 인식을 위한 통합 프레임워크
초록

본 논문에서는 다중 뷰 이미지에서 3D 인식을 위한 통합 프레임워크인 PETRv2를 제안합니다. PETR을 기반으로 하여, PETRv2는 이전 프레임의 시간 정보를 활용하여 3D 객체 검출 성능을 향상시키는 시간 모델링의 효과성을 탐구합니다. 더욱 구체적으로, 우리는 PETR의 3D 위치 임베딩(3D PE)을 시간 모델링에 확장합니다. 3D PE는 서로 다른 프레임 간 객체 위치의 시간적 일치성을 달성합니다. 또한, 데이터 적응성을 개선하기 위해 피처 가이드 위치 인코더가 도입되었습니다. 다중 작업 학습(예: BEV 세그멘테이션 및 3D 차선 검출)을 지원하기 위해, PETRv2는 서로 다른 공간에서 초기화되는 작업별 쿼리를 도입하여 단순하면서도 효과적인 해결책을 제공합니다. PETRv2는 3D 객체 검출, BEV 세그멘테이션 및 3D 차선 검출에서 최고 수준의 성능을 달성하였습니다. 또한, PETR 프레임워크에 대한 상세한 로버스트성 분석이 수행되었습니다. 우리는 PETRv2가 3D 인식 분야에서 강력한 베이스라인으로 활용되기를 바랍니다. 코드는 \url{https://github.com/megvii-research/PETR}에서 확인할 수 있습니다.

PETRv2: 다중 카메라 이미지에서의 3D 인식을 위한 통합 프레임워크 | 최신 연구 논문 | HyperAI초신경