HyperAI초신경
12일 전

π^3: 확장 가능한 순서 등가 시각 기하학 학습

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He
π^3: 확장 가능한 순서 등가 시각 기하학 학습
초록

우리는 시각 기하학 재구성에 있어 혁신적인 접근 방식을 제공하는 피드포워드 신경망 pi^3를 소개합니다. 이 모델은 전통적인 고정된 참조 뷰에 대한 의존성을 깨는 역할을 합니다. 기존 방법들은 종종 지정된 관점에 재구성을 고정시키는데, 이는 참조가 최적화되지 않았을 때 불안정성과 실패로 이어질 수 있는 귀납 편향(Inductive Bias)을 초래합니다. 반면, pi^3는 완전 순열 등변(Permutation-Equivariant) 구조를 사용하여 참조 프레임 없이 아핀 불변(Affine-Invariant) 카메라 포즈와 스케일 불변(Scale-Invariant) 국소 점 맵을 예측합니다. 이러한 설계는 우리의 모델이 입력 순서에 본질적으로 강건하며, 매우 확장 가능하게 만듭니다. 이러한 장점들 덕분에 우리의 단순하고 편향 없는 접근 방식은 카메라 포즈 추정, 단일/비디오 깊이 추정, 그리고 밀도 높은 점 맵 재구성 등 다양한 작업에서 최고의 성능을 달성할 수 있습니다. 코드와 모델은 공개되어 있습니다.