11일 전

SIGN: 공간 정보를 통합한 생성 네트워크를 통한 일반화된 제로샷 세분화

Jiaxin Cheng, Soumyaroop Nandi, Prem Natarajan, Wael Abd-Almageed
초록

기존의 제로샷 분류와 달리, 제로샷 의미 분할(semantic segmentation)은 이미지 수준이 아니라 픽셀 수준에서 클래스 레이블을 예측한다. 제로샷 의미 분할 문제를 해결할 때, 주변 맥락을 고려한 픽셀 수준의 예측이 요구되므로, 위치 인코딩을 활용한 공간 정보의 통합이 필요하다. 본 연구에서는 특징 수준에서 공간 정보를 통합할 수 있고, 임의의 이미지 크기를 처리할 수 있는 상대적 위치 인코딩(relative positional encoding) 개념을 도입함으로써 기존의 표준 위치 인코딩을 개선하였다. 또한 제로샷 의미 분할에서 흔히 사용되는 자기 학습(self-training) 기법을 통해 의사 레이블(pseudo-label)을 생성하지만, 본 연구에서는 새로운 지식 증류(knowledge distillation)-기반 자기 학습 전략인 '냉각 자기 학습(Annealed Self-Training)'을 제안한다. 이 방법은 의사 레이블에 대해 자동으로 다양한 중요도를 부여함으로써 성능 향상을 가능하게 한다. 제안된 상대적 위치 인코딩과 냉각 자기 학습을 종합적인 실험 평가를 통해 체계적으로 연구한 결과, 세 가지 벤치마크 데이터셋에서 본 방법의 효과성이 실험적으로 입증되었다.

SIGN: 공간 정보를 통합한 생성 네트워크를 통한 일반화된 제로샷 세분화 | 최신 연구 논문 | HyperAI초신경