11일 전

시각적 단어 학습과 하이브리드 풀링을 이용한 약한 지도(semi-supervised) 세분화

Lixiang Ru, Bo Du, Yibing Zhan, Chen Wu
시각적 단어 학습과 하이브리드 풀링을 이용한 약한 지도(semi-supervised) 세분화
초록

이미지 수준 레이블을 이용하는 약한 지도(semi-supervised) 세분화(WSSS) 방법은 일반적으로 분류 네트워크를 학습시켜 클래스 활성화 맵(Class Activation Maps, CAMs)을 초기의 원시적인 세분화 레이블로 생성한다. 그러나 현재의 WSSS 방법들은 여전히 만족스럽지 못한 성능을 보이고 있는데, 이는 사용하는 CAMs가 1) 일반적으로 객체의 일부 분별력 있는 영역에만 집중되며, 2) 불필요한 배경 영역을 포함하는 경향이 있기 때문이다. 이러한 두 가지 문제는 분류 네트워크 학습 시 단일한 이미지 수준의 지도 정보만을 사용하고 전역 정보를 집계하는 데 기인한다. 본 연구에서는 이러한 문제를 완화하기 위해 시각적 단어 학습 모듈(visual words learning module)과 하이브리드 풀링(hybrid pooling) 방법을 제안하고, 이를 분류 네트워크에 통합한다. 시각적 단어 학습 모듈에서는 분류 네트워크가 세밀한 시각적 단어 레이블을 학습하도록 유도함으로써 첫 번째 문제를 해결한다. 이를 통해 객체의 보다 완전한 영역을 탐지할 수 있도록 한다. 구체적으로, 코드북을 활용하여 시각적 단어를 학습하며, 이 코드북은 제안된 두 가지 전략—학습 기반 전략과 메모리 백 전략—을 통해 업데이트될 수 있다. 두 번째 문제, 즉 CAM의 배경 영역 포함 문제는 제안된 하이브리드 풀링을 통해 완화된다. 이 방법은 전역 평균 정보와 국소적인 분별력 있는 정보를 통합함으로써 객체의 완전성 확보와 동시에 배경 영역의 감소를 동시에 달성한다. 제안한 방법은 PASCAL VOC 2012 및 MS COCO 2014 데이터셋에서 평가되었으며, 별도의 색인 사전 정보(saliency prior) 없이도 PASCAL VOC 데이터셋의 $val$ 및 $test$ 세트에서 각각 70.6%, 70.7%의 mIoU를 달성하였으며, MS COCO 데이터셋의 $val$ 세트에서는 36.2%의 mIoU를 기록하여 기존 최고 성능의 WSSS 방법들을 크게 능가하였다.

시각적 단어 학습과 하이브리드 풀링을 이용한 약한 지도(semi-supervised) 세분화 | 최신 연구 논문 | HyperAI초신경