11일 전

모든 쌍에 대한 일관성 학습을 통한 약한 감독 세분화

Weixuan Sun, Yanhao Zhang, Zhen Qin, Zheyuan Liu, Lin Cheng, Fanyi Wang, Yiran Zhong, Nick Barnes
모든 쌍에 대한 일관성 학습을 통한 약한 감독 세분화
초록

이 작업에서는 약한 감독 세그멘테이션(Weakly Supervised Semantic Segmentation, WSSS)에서 객체를 더 정확히 국소화하기 위해 새로운 트랜스포머 기반 정규화 기법을 제안한다. 이미지 레벨 WSSS에서는 클래스 활성화 맵(Class Activation Map, CAM)을 사용하여 가상의 세그멘테이션 레이블로 객체 국소화를 생성한다. 그러나 CAM의 부분적 활성화 문제를 해결하기 위해 일관성 정규화(consistency regularization)가 활용되며, 다양한 이미지 증강에 대해 활성화 강도의 불변성을 유지한다. 그러나 이러한 기법들은 각 CAM 내부의 영역 간 쌍별 관계(pair-wise relations)를 무시한다. 이 관계는 맥락 정보를 포착하며, 이미지의 다양한 시각(view) 간에도 일관성 유지가 필요하다. 이를 해결하기 위해 우리는 새로운 전쌍 일관성 정규화(All-Pairs Consistency Regularization, ACR)를 제안한다. 증강된 두 이미지 쌍을 기반으로, 우리의 방법은 증강된 두 이미지 간의 활성화 강도를 정규화함과 동시에, 각 이미지 내부의 영역 간 유사도(affinity)가 일관되게 유지되도록 보장한다. 시각 트랜스포머(Vision Transformer)를 활용함으로써, 쌍별 유사도를 자연스럽게 내장할 수 있으며, 이는 증강된 이미지 쌍의 어텐션 행렬 간 거리만을 단순히 정규화함으로써 가능해진다. 또한, 클래스 토큰의 기울기(gradient)를 활용하는 새로운 클래스별 국소화 방법을 도입한다. 제안한 방법은 트랜스포머 기반 기존 WSSS 방법에 아키텍처 수정 없이 원활하게 통합 가능하다. 제안된 방법은 PASCAL VOC 및 MS COCO 데이터셋에서 평가되었으며, PASCAL VOC 훈련 세트에서 67.3%의 mIoU를 기록하여 더 나은 클래스 국소화 맵을 생성하고, 우수한 WSSS 성능을 달성하였다.