17일 전

패노픽 세그포머: 트랜스포머를 활용한 패노픽 세그멘테이션의 심화 탐구

Zhiqi Li, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo, Tong Lu
패노픽 세그포머: 트랜스포머를 활용한 패노픽 세그멘테이션의 심화 탐구
초록

패ノ픽 세그멘테이션은 이미지 내용을 '사물(things)'과 '소재(stuff)' 두 가지 유형으로 나누는 동시에, 세분화된 의미 세그멘테이션과 인스턴스 세그멘테이션을 통합하는 기술입니다. 본 논문에서는 트랜스포머 기반의 일반화된 패노픽 세그멘테이션 프레임워크인 Panoptic SegFormer을 제안합니다. 이 프레임워크는 세 가지 혁신적인 구성 요소를 포함합니다: 효율적인 깊은 감독 마스크 디코더, 쿼리 분리 전략, 개선된 후처리 방법입니다. 또한, 다중 스케일 특징을 효율적으로 처리하기 위해 Deformable DETR을 활용하였으며, 이는 DETR의 빠르고 효율적인 변형입니다. 구체적으로, 마스크 디코더 내의 어텐션 모듈에 계층적으로 감독을 적용함으로써, 어텐션 모듈이 의미 있는 세분화 영역에 빠르게 집중할 수 있도록 하였습니다. 이 깊은 감독 전략은 성능을 향상시키며, Deformable DETR 대비 학습 에포크 수를 절반으로 줄였습니다. 제안하는 쿼리 분리 전략은 '사물'과 '소재' 간의 쿼리 세트의 책임을 분리함으로써 서로 간의 간섭을 방지합니다. 또한, 분류 정확도와 세그멘테이션 품질을 동시에 고려하여 모순되는 마스크 겹침을 해결하는 후처리 전략을 도입함으로써, 추가적인 비용 없이 성능을 향상시켰습니다. 본 방법은 기준 모델인 DETR 대비 6.2%의 PQ(panoptic quality) 향상을 달성하였습니다. Panoptic SegFormer은 COCO test-dev 평가에서 56.2%의 PQ를 기록하며 최신 기술 수준의 성능을 달성하였으며, 기존 방법들에 비해 더 강한 제로샷(Zero-shot) 강인성도 보였습니다. 관련 코드는 \url{https://github.com/zhiqi-li/Panoptic-SegFormer}에서 공개되었습니다.