2달 전

DiT-3D: 3D 형태 생성을 위한 단순 확산 트랜스포머 탐구

Mo, Shentong ; Xie, Enze ; Chu, Ruihang ; Yao, Lewei ; Hong, Lanqing ; Nießner, Matthias ; Li, Zhenguo
DiT-3D: 3D 형태 생성을 위한 단순 확산 트랜스포머 탐구
초록

최근 확산 트랜스포머(DiT 등)는 고품질의 2D 이미지 생성에서 강력한 효과를 입증하였습니다. 그러나 트랜스포머 아키텍처가 3D 형태 생성에서도 동등한 성능을 발휘하는지는 아직 결정되지 않았습니다. 이는 이전의 3D 확산 방법들이 주로 U-Net 아키텍처를 채택했기 때문입니다. 이러한 간극을 메우기 위해, 우리는 3D 형태 생성을 위한 새로운 확산 트랜스포머인 DiT-3D를 제안합니다. 이 모델은 평범한 트랜스포머를 사용하여 복셀화된 포인트 클라우드에 직접 노이즈 제거 과정을 수행할 수 있습니다.기존의 U-Net 접근법과 비교하여, 우리의 DiT-3D는 모델 크기에 있어 더 유연하며, 훨씬 높은 품질의 생성물을 만들어냅니다. 구체적으로, DiT-3D는 DiT의 설계 철학을 따르지만, 복셀화된 포인트 클라우드에서 입력을 적응적으로 집계하기 위해 3D 위치 및 패치 임베딩을 통합하여 수정하였습니다. 3D 형태 생성에서 자기 주의(self-attention)의 계산 비용을 줄이기 위해, 우리는 트랜스포머 블록에 3D 윈도우 주의(attention)를 통합하였습니다. 복셀의 추가 차원으로 인해 증가하는 3D 토큰 길이가 높은 계산량을 초래할 수 있기 때문입니다. 마지막으로, 선형 및 디복셀화(devoxelization) 레이어를 사용하여 노이즈 제거된 포인트 클라우드를 예측합니다.또한, 우리의 트랜스포머 아키텍처는 ImageNet에서 사전 학습된 DiT-2D 체크포인트를 활용하여 ShapeNet에서 DiT-3D의 성능을 크게 개선할 수 있는 효율적인 미세 조정(fine-tuning)을 지원합니다. ShapeNet 데이터셋에서 수행된 실험 결과, 제안된 DiT-3D가 고충실도와 다양성 면에서 최고 수준의 3D 포인트 클라우드 생성 성능을 달성함을 보여주었습니다. 특히, Chamfer 거리로 평가했을 때, 우리의 DiT-3D는 최신 방법론보다 1-최근접 이웃 정확도(1-Nearest Neighbor Accuracy)가 4.59 감소하고 커버리지(Coverage) 지표가 3.51 증가하였습니다.

DiT-3D: 3D 형태 생성을 위한 단순 확산 트랜스포머 탐구 | 최신 연구 논문 | HyperAI초신경