3일 전
STream3R: 인과 트랜스포머를 활용한 확장 가능한 순차 3차원 재구성
Yushi Lan, Yihang Luo, Fangzhou Hong, Shangchen Zhou, Honghua Chen, Zhaoyang Lyu, Shuai Yang, Bo Dai, Chen Change Loy, Xingang Pan

초록
우리는 포인트맵 예측을 디코더 전용 트랜스포머 문제로 재정의하는 새로운 3차원 재구성 방법인 STream3R을 제안한다. 기존의 다중 시점 재구성 기법들은 비용이 큰 전역 최적화에 의존하거나, 시퀀스 길이가 증가할수록 성능이 급격히 저하되는 단순한 메모리 메커니즘에 의존하는 경우가 많다. 반면 STream3R은 현대 언어 모델링 기술의 발전을 영감으로 받아 인과적 어텐션(causal attention)을 활용해 이미지 시퀀스를 효율적으로 처리하는 스트리밍 프레임워크를 도입한다. 대규모 3차원 데이터셋에서 기하학적 사전 지식을 학습함으로써, STream3R은 전통적인 방법이 종종 실패하는 다이나믹한 장면을 포함한 다양한 도전적인 시나리오에도 잘 일반화된다. 광범위한 실험 결과를 통해 제안하는 방법이 정적 및 동적 장면 벤치마크 모두에서 기존 방법을 일관되게 상회함을 확인할 수 있다. 더불어 STream3R은 LLM(대규모 언어 모델) 기반의 학습 인프라와 본질적으로 호환되며, 다양한 후속 3차원 작업을 위한 효율적인 대규모 사전 학습 및 미세 조정이 가능하다. 본 연구 결과는 인과적 트랜스포머 모델이 온라인 3차원 인식에 가지는 잠재력을 입증하며, 스트리밍 환경에서 실시간 3차원 이해를 위한 길을 열어준다. 자세한 내용은 우리 프로젝트 페이지에서 확인할 수 있다: https://nirvanalan.github.io/projects/stream3r.