11일 전

PanoFormer: 실내 360도 깊이 추정을 위한 패노그램 트랜스포머

Zhijie Shen, Chunyu Lin, Kang Liao, Lang Nie, Zishuo Zheng, Yao Zhao
PanoFormer: 실내 360도 깊이 추정을 위한 패노그램 트랜스포머
초록

기존의 합성곱 신경망(CNN) 기반 원형 심도 추정 방법들은 원형 왜곡을 제거하는 데 집중하지만, CNN의 고정된 수용 영역 때문에 원형 구조를 효율적으로 인식하지 못한다. 본 논문에서는 구면 영역에서의 탄젠트 패치(tangent patches), 학습 가능한 토큰 흐름(learnable token flows), 그리고 원형 특화된 메트릭을 활용하여 원형 이미지의 심도를 추정하는 'PanoFormer'이라는 원형 트랜스포머를 제안한다. 특히, 구면 탄젠트 도메인 상의 패치를 토큰으로 나누어 원형 왜곡의 부정적 영향을 줄인다. 심도 추정에 있어 기하학적 구조가 핵심적인 역할을 하므로, 추가적인 학습 가능한 토큰 흐름을 포함한 재설계된 자기주의(self-attention) 모듈을 제안한다. 또한 구면 도메인의 특성을 고려하여 원형 심도 추정 모델의 성능을 종합적으로 평가하기 위해 두 가지 원형 특화 메트릭을 제시한다. 광범위한 실험 결과, 제안한 방법이 최첨단(SOTA) 기법들을 상당히 능가함을 입증하였다. 더불어, 제안된 방법은 유사한 픽셀 단위 매핑(pixel2pixel) 작업인 의미론적 원형 세그멘테이션에도 효과적으로 확장 가능함을 보였다. 코드는 공개될 예정이다.

PanoFormer: 실내 360도 깊이 추정을 위한 패노그램 트랜스포머 | 최신 연구 논문 | HyperAI초신경