17일 전

SGAT4PASS: 구형 기하학 인지 트랜스포머를 활용한 파노라마 세그멘테이션

Xuewei Li, Tao Wu, Zhongang Qi, Gaoang Wang, Ying Shan, Xi Li
SGAT4PASS: 구형 기하학 인지 트랜스포머를 활용한 파노라마 세그멘테이션
초록

컴퓨터 비전 분야에서 중요한 문제이자 도전 과제인 전경 세분화(panoramic semantic segmentation, PASS)는 초광각 시야를 기반으로 전체 장면에 대한 완전한 인식을 가능하게 한다. 일반적으로 2D 전경 이미지 입력을 사용하는 기존 PASS 방법들은 이미지 왜곡 문제를 해결하는 데 초점을 맞추지만, 원본 360° 데이터의 3차원(3D) 특성을 고려하지 못하는 한계를 가지고 있다. 이로 인해 입력 전경 이미지에 3D 왜곡이 발생할 경우 성능이 크게 저하된다. 이러한 3D 왜곡에 더 강건한 성능을 갖기 위해, 본 연구에서는 3D 구면 기하학적 지식을 고려한 구면 기하학 인지형 트랜스포머(Spherical Geometry-Aware Transformer for PAnoramic Semantic Segmentation, SGAT4PASS)를 제안한다. 구체적으로, PASS를 위한 구면 기하학 인지형 프레임워크를 제안하며, 이는 구면 기하학 인지형 이미지 투영, 구면 변형 패치 임베딩, 그리고 전경 인식 손실 함수의 세 가지 모듈로 구성된다. 각각의 모듈은 3D 왜곡이 있는 입력 이미지를 고려하고, 기존의 변형 패치 임베딩에 구면 기하학 인지형 제약 조건을 추가하며, 원본 360° 데이터의 픽셀 밀도 정보를 반영한다. 스탠포드2D3D 전경 데이터셋에서의 실험 결과에 따르면, SGAT4PASS는 mIoU 기준 약 2%의 성능 향상을 보이며, 데이터 내 소규모 3D 왜곡이 발생할 경우 성능의 안정성이 10배 이상 향상됨을 확인하였다. 본 연구의 코드 및 보충 자료는 https://github.com/TencentARC/SGAT4PASS 에서 공개되어 있다.