11일 전
밀도 있는 시암네트워크를 이용한 밀도 있는 비지도 학습
Wenwei Zhang, Jiangmiao Pang, Kai Chen, Chen Change Loy

초록
이 논문은 밀집 예측 작업을 위한 간단한 비지도 학습 프레임워크인 Dense Siamese Network(DenseSiam)을 제안한다. DenseSiam은 하나의 이미지에 대한 두 가지 시각을 이용하여, 픽셀 일관성과 영역 일관성이라는 두 가지 유형의 일관성을 최대화함으로써 시각적 표현을 학습한다. 구체적으로, DenseSiam은 겹치는 영역 내 정확한 위치 대응 관계를 기반으로 픽셀 수준의 공간 일관성을 최대화한다. 또한 겹치는 영역 내 일부 하위 영역에 대응하는 일련의 영역 임베딩을 추출하여 영역 일관성에 대해 대조한다. 기존의 방법들이 음성 픽셀 쌍, 모멘텀 인코더 또는 휴리스틱 마스크를 필요로 하는 것과 달리, DenseSiam은 간단한 시엠제 네트워크를 활용하여 다양한 정밀도 수준의 일관성을 최적화할 수 있다. 또한 정확한 위치 대응과 상호작용하는 영역 임베딩이 유사성 학습에 충분히 효과적임을 입증한다. DenseSiam을 ImageNet에 적용한 결과, 다양한 후행 작업에서 경쟁력 있는 성능 향상을 달성하였다. 또한, 단지 일부 작업에 특화된 추가 손실 함수만을 사용하면, 간단한 프레임워크가 직접적으로 밀집 예측 작업을 수행할 수 있음을 보였다. 기존의 비지도 세그멘테이션 벤치마크에서, 학습 비용을 28% 절감하면서 최신 기술 대비 2.1 mIoU의 성능 향상을 달성하였다. 코드와 모델은 https://github.com/ZwwWayne/DenseSiam 에 공개되어 있다.