2달 전
PonderV2: 3D 기초 모델을 위한 보편적인 사전 학습 패러다임의 도입
Haoyi Zhu; Honghui Yang; Xiaoyang Wu; Di Huang; Sha Zhang; Xianglong He; Hengshuang Zhao; Chunhua Shen; Yu Qiao; Tong He; Wanli Ouyang

초록
많은 자연어 처리(NLP) 및 2D 비전 기초 모델과 달리, 3D 기초 모델을 학습하는 것은 상당히 더 큰 도전을 제시합니다. 이는 주로 하류 작업의 고유한 데이터 변동성과 다양성 때문입니다. 본 논문에서는 효율적인 3D 표현을 획득하기 위한 새로운 보편적인 3D 사전 학습 프레임워크를 소개하여, 3D 기초 모델로의 접근 경로를 마련하고자 합니다. 정보가 풍부한 3D 특징이 현실적인 이미지를 렌더링하는 데 활용될 수 있는 풍부한 기하학적 및 외관 신호를 인코딩해야 한다는 점을 고려하여, 우리는 미분 가능한 신경망 렌더링을 통해 3D 표현을 학습하는 방법을 제안합니다. 우리는 렌더링된 이미지와 실제 이미지를 비교하여 설계된 볼륨형 신경망 렌더러를 사용해 3D 백본을 훈련시킵니다. 특히, 우리의 접근 방식은 학습된 3D 인코더를 다양한 하류 작업에 원활하게 통합할 수 있습니다. 이러한 작업은 실내 및 실외 환경에서 모두 적용되며, 3D 검출 및 분할과 같은 고수준 과제뿐만 아니라 3D 재구성 및 이미지 합성과 같은 저수준 목표도 포함합니다. 또한, 제안된 방법론을 사용하여 2D 백본을 사전 학습하는 능력도 설명하며, 이는 전통적인 사전 학습 방법보다 크게 우수한 결과를 나타냅니다. 처음으로 PonderV2는 실내 및 실외 벤치마크 11개에서 최고 성능을 달성하여 그 효과성을 시사합니다. 코드와 모델은 https://github.com/OpenGVLab/PonderV2에서 제공됩니다.