12일 전
π^3: 확장 가능한 순서 등가 시각 기하학 학습
Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He

초록
우리는 시각 기하학 재구성에 있어 혁신적인 접근 방식을 제공하는 피드포워드 신경망 pi^3를 소개합니다. 이 모델은 전통적인 고정된 참조 뷰에 대한 의존성을 깨는 역할을 합니다. 기존 방법들은 종종 지정된 관점에 재구성을 고정시키는데, 이는 참조가 최적화되지 않았을 때 불안정성과 실패로 이어질 수 있는 귀납 편향(Inductive Bias)을 초래합니다. 반면, pi^3는 완전 순열 등변(Permutation-Equivariant) 구조를 사용하여 참조 프레임 없이 아핀 불변(Affine-Invariant) 카메라 포즈와 스케일 불변(Scale-Invariant) 국소 점 맵을 예측합니다. 이러한 설계는 우리의 모델이 입력 순서에 본질적으로 강건하며, 매우 확장 가능하게 만듭니다. 이러한 장점들 덕분에 우리의 단순하고 편향 없는 접근 방식은 카메라 포즈 추정, 단일/비디오 깊이 추정, 그리고 밀도 높은 점 맵 재구성 등 다양한 작업에서 최고의 성능을 달성할 수 있습니다. 코드와 모델은 공개되어 있습니다.