HyperAI초신경
14시간 전

iLRM: 반복형 대규모 3차원 재구성 모델

Gyeongjin Kang; Seungtae Nam; Xiangyu Sun; Sameh Khamis; Abdelrahman Mohamed; Eunbyung Park
iLRM: 반복형 대규모 3차원 재구성 모델
초록

전방향 3D 모델링은 빠르고 고품질의 3D 재구성에 대한 유망한 접근법으로 부상하고 있다. 특히 3D 가우시안 스플래터링과 같은 명시적 3D 표현을 직접 생성하는 방식은 빠른 렌더링 속도와 높은 품질, 그리고 다양한 응용 가능성으로 인해 주목받고 있다. 그러나 기존의 최첨단 방법 대부분은 트랜스포머 아키텍처에 기반하고 있어, 다수의 입력 뷰로부터의 이미지 토큰 간 전방향 어텐션에 의존함으로써, 뷰 수나 이미지 해상도가 증가할수록 계산 비용이 급격히 증가하는 심각한 확장성 문제를 겪고 있다. 이러한 문제를 해결하기 위해, 효율적이고 확장 가능한 전방향 3D 재구성 기술을 구현하고자, 반복적 정밀화 메커니즘을 통해 3D 가우시안 표현을 생성하는 반복형 대규모 3D 재구성 모델(iLRM, iterative Large 3D Reconstruction Model)을 제안한다. 본 모델은 다음과 같은 세 가지 핵심 원칙에 기반한다: (1) 입력 뷰 이미지로부터 장면 표현을 분리하여 컴팩트한 3D 표현을 가능하게 하며; (2) 전방향 다중 뷰 상호작용을 두 단계 어텐션 구조로 분해하여 계산 비용을 감소시키며; (3) 각 계층에서 고해상도 정보를 주입함으로써 고정밀 재구성을 달성한다. RE10K 및 DL3DV와 같은 널리 사용되는 데이터셋에서의 실험 결과에 따르면, iLRM은 기존 방법들에 비해 재구성 품질과 속도 면에서 모두 우수한 성능을 보였다. 특히 iLRM은 뛰어난 확장성 특성을 나타내며, 동일한 계산 비용 조건 하에서도 더 많은 입력 뷰를 효율적으로 활용함으로써, 상당히 높은 재구성 품질을 제공함을 확인할 수 있었다.