4달 전
Take-A-Photo: 3D-to-2D 생성적 사전 학습 포인트 클라우드 모델
Wang, Ziyi ; Yu, Xumin ; Rao, Yongming ; Zhou, Jie ; Lu, Jiwen

초록
MAE가 주도하는 마스크 이미지 모델링의 압도적인 추세에 따라, 생성적 사전 학습은 2D 비전에서 기본 모델의 성능을 향상시키는 데 뛰어난 잠재력을 보여주었습니다. 그러나 3D 비전에서는 Transformer 기반 백본에 대한 과도한 의존과 포인트 클라우드의 순서 없는 특성이 생성적 사전 학습의 추가 발전을 제약하고 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 어떤 포인트 클라우드 모델에도 적용할 수 있는 새로운 3D-to-2D 생성적 사전 학습 방법을 제안합니다. 우리는 교차 주의 메커니즘(cross-attention mechanism)을 통해 지시된 다양한 자세에서 뷰 이미지를 생성하는 방식을 사전 학습 스키마로 제안합니다. 뷰 이미지를 생성하는 것은 포인트 클라우드 대응물보다 더 정확한 감독을 제공하므로, 3D 백본이 포인트 클라우드의 기하학적 구조와 입체 관계를 더 세밀하게 이해하도록 돕습니다. 실험 결과는 제안된 3D-to-2D 생성적 사전 학습 방법이 이전의 사전 학습 방법들보다 우수함을 증명하였습니다. 또한 본 방법은 구조 중심 접근법들의 성능 향상에도 효과적이며, ScanObjectNN 분류 및 ShapeNetPart 세분화 작업에서 미세 조정(fine-tuning) 시 최고 수준의 성능을 달성하였습니다. 코드는 https://github.com/wangzy22/TAP에서 확인할 수 있습니다.