PolyphonicFormer: 깊이 인식 비디오 팬옵틱 세그멘테이션을 위한 통합 쿼리 학습

깊이 인식 비디오 팬옵틱 세그멘테이션(DVPS)은 동영상에서 동시에 팬옵틱 세그멘테이션과 깊이를 예측하는 새로운 도전적인 시각 문제입니다. 이전 연구에서는 기존의 팬옵틱 세그멘테이션 방법에 추가적인 밀집 깊이 예측 및 인스턴스 추적 헤드를 확장하여 이 작업을 해결하였습니다. 그러나 깊이와 팬옵틱 세그멘테이션 간의 관계는 충분히 탐구되지 않았으며, 단순히 기존 방법들을 결합하면 경쟁 문제가 발생하고 신중한 가중치 균형 조정이 필요합니다. 본 논문에서는 이러한 하위 작업들을 DVPS 작업 하에 통합하여 더욱 강건한 결과를 도출하기 위한 비전 트랜스포머인 PolyphonicFormer를 제시합니다. 우리의 주요 통찰력은 객체 쿼리로 인스턴스 레벨의 깊이 맵을 예측하는 새로운 패러다임을 통해 깊이가 팬옵틱 세그멘테이션과 조화될 수 있다는 것입니다. 이를 통해 두 작업 간의 관계를 쿼리 기반 학습을 통해 탐구하였습니다. 실험을 통해 우리의 설계가 깊이 추정과 팬옵틱 세그멘테이션 측면에서 모두 이점을 제공함을 입증하였습니다. 각각의 사물 쿼리가 인스턴스별 정보를 인코딩하므로, 외관 학습을 통해 직접 추적을 수행하는 것이 자연스럽습니다. 우리 방법은 두 개의 DVPS 데이터셋(Semantic KITTI, Cityscapes)에서 최고 수준의 성능을 보였으며, ICCV-2021 BMTT 챌린지 비디오 + 깊이 트랙에서 1위를 차지하였습니다. 코드는 https://github.com/HarborYuan/PolyphonicFormer 에서 확인할 수 있습니다.