7일 전
AutoFocusFormer: 격자 없는 이미지 세그멘테이션
Chen Ziwen, Kaushik Patnaik, Shuangfei Zhai, Alvin Wan, Zhile Ren, Alex Schwing, Alex Colburn, Li Fuxin

초록
실제 이미지에서는 콘텐츠 밀도가 매우 불균형한 경우가 흔하다. 일부 영역은 매우 균일한 경우가 있는데, 예를 들어 큰 면적의 파란 하늘처럼 말이다. 반면 다른 영역은 많은 작은 객체들이 흩어져 있는 경우가 있다. 그러나 기존의 컨볼루션 딥 네트워크에서 흔히 사용되는 순차적 그리드 다운샘플링 전략은 모든 영역을 동일하게 취급한다. 이로 인해 작은 객체들은 매우 적은 공간적 위치에만 표현되게 되어, 세그멘테이션과 같은 작업에서 성능이 저하된다. 직관적으로, 다운샘플링 과정에서 작은 객체를 나타내는 픽셀을 더 많이 유지하면 중요한 정보를 보존하는 데 도움이 된다. 이를 달성하기 위해 우리는 AutoFocusFormer(AFF)을 제안한다. 이는 작업에 있어 가장 중요한 픽셀을 학습하여 적응형 다운샘플링을 수행하는 로컬 어텐션 기반 트랜스포머 이미지 인식 백본이다. 적응형 다운샘플링은 이미지 평면 상에 불규칙하게 분포된 픽셀 집합을 생성하므로, 우리는 전통적인 그리드 구조를 포기한다. 대신, 균형 잡힌 클러스터링 모듈과 학습 가능한 이웃 병합 모듈을 활용하여 새로운 포인트 기반 로컬 어텐션 블록을 개발하였으며, 이는 최첨단 세그멘테이션 헤드의 포인트 기반 버전에 대한 표현을 제공한다. 실험 결과, 제안하는 AutoFocusFormer(AFF)은 크기가 유사한 기준 모델들에 비해 상당한 성능 향상을 보였다.