2달 전
PolyMaX: 마스크 변환기를 사용한 일반적인 밀도 예측
Xuan Yang; Liangzhe Yuan; Kimberly Wilber; Astuti Sharma; Xiuye Gu; Siyuan Qiao; Stephanie Debats; Huisheng Wang; Hartwig Adam; Mikhail Sirotenko; Liang-Chieh Chen

초록
밀도 예측 작업, 예를 들어 의미 분할, 깊이 추정 및 표면 법선 예측은 픽셀별 분류(이산 출력) 또는 회귀(연속 출력)로 쉽게 정식화될 수 있습니다. 이 픽셀별 예측 패러다임은 완전히 합성곱 네트워크의 보편성으로 인해 여전히 인기가 있습니다. 그러나 최근의 분할 작업 전선에서 커뮤니티는 트랜스포머 구조, 특히 마스크 트랜스포머의 등장으로 픽셀별 예측에서 클러스터 예측으로의 패러다임 변화를 목격하고 있습니다. 마스크 트랜스포머는 픽셀 대신 마스크에 직접 라벨을 예측합니다. 이러한 변화에도 불구하고, 연속 출력을 요구하는 깊이 추정 및 표면 법선 예측과 같은 다른 밀도 예측 작업의 벤치마크에서는 여전히 픽셀별 예측 패러다임 기반 방법들이 주도하고 있습니다.깊이 추정에서 DORN과 AdaBins가 성공한 것에 영감을 받아, 우리는 연속 출력 공간을 이산화함으로써 클러스터 예측 기반 방법을 일반적인 밀도 예측 작업으로 일반화하는 것을 제안합니다. 이를 통해 우리는 마스크 트랜스포머 프레임워크를 사용하여 밀도 예측 작업들을 통합할 수 있게 되었습니다. 특히, 결과 모델인 PolyMaX는 NYUD-v2 데이터셋의 세 가지 벤치마크에서 최고 수준의 성능을 보여주었습니다. 우리는 우리의 간단하면서도 효과적인 설계가 더 많은 밀도 예측 작업에 대한 마스크 트랜스포머 활용 연구를 촉진하기를 바랍니다. 코드와 모델은 공개될 것입니다.