2달 전
ViCE: 슈퍼픽셀화 및 대조 클러스터 할당을 통한 밀집 표현 학습 개선
Robin Karlsson; Tomoki Hayashi; Keisuke Fujii; Alexander Carballo; Kento Ohtani; Kazuya Takeda

초록
최근 자기 감독 모델들은 지도 학습 방법과 동등하거나 더 우수한 성능을 보여주며, AI 시스템이 사실상 무제한 데이터에서 시각적 표현을 학습할 수 있는 길을 열었습니다. 그러나 이러한 방법들은 일반적으로 분류 기반으로 이루어져 있어, 정확한 공간 정보를 유지하는 고해상도 특성 맵의 학습에는 효과적이지 않습니다. 본 연구에서는 슈퍼픽셀(superpixels)을 도입하여 밀집된 의미론적으로 풍부한 시각적 개념 임베딩의 자기 감독 학습을 개선합니다. 이미지를 시각적으로 일관된 작은 영역들로 분해함으로써 세부 정보를 유지하면서 계산 복잡도를 $\mathcal{O}(1000)$만큼 줄일 수 있습니다. 실험 결과, 영역 간 대조(contrast)는 대조 학습 방법들의 효과성을 개선하고, 고해상도 이미지에 대한 적용 범위를 확장하며, 과군집화(overclustering) 성능을 향상시키며, 슈퍼픽셀이 그리드(grid)보다 우수하며, 지역 마스킹(regional masking)은 성능을 개선한다는 것을 보였습니다. 우리의 밀집 임베딩의 표현력은 Cityscapes 데이터셋에서 최고 수준의 비지도 의미 분할 벤치마크를 개선함으로써 입증되었으며, COCO 데이터셋에서도 컨볼루션 모델들에 대해 성능 향상을 보였습니다.