2달 전

자기 감독 변환기의 정규화된 컷을 이용한 비감독 객체 발견

Yangtao Wang; Xi Shen; Shell Hu; Yuan Yuan; James Crowley; Dominique Vaufreydaz
자기 감독 변환기의 정규화된 컷을 이용한 비감독 객체 발견
초록

자기 지도 학습(self-supervised learning)을 사용하여 자기 증류 손실(self-distillation loss)로 훈련된 트랜스포머(Transformers)는 주요 전경 객체를 강조하는 주의 맵(attention maps)을 생성한다는 것이 입증되었습니다. 본 논문에서는 이러한 자기 지도 트랜스포머 특성을 이용하여 이미지에서 객체를 발견하는 그래프 기반 접근법을 제시합니다. 시각적 토큰(visual tokens)은 가중 그래프(weighted graph)의 노드로 취급되며, 엣지는 토큰 간 유사성에 기반한 연결 점수(connectivity score)를 나타냅니다. 정규화된 그래프 컷(normalized graph-cut)을 사용하여 자기 유사 영역(self-similar regions)을 그룹화함으로써 전경 객체를 분할할 수 있습니다. 우리는 일반화된 고유값 분해(generalized eigen-decomposition)를 사용한 스펙트럼 클러스터링(spectral clustering)으로 그래프 컷 문제를 해결하며, 두 번째로 작은 고유벡터(eigenvector)가 절단 해법(cutting solution)을 제공함을 보여줍니다. 이는 고유벡터의 절대 값이 토큰이 전경 객체에 속할 가능성을 나타내기 때문입니다. 이 접근법은 단순하지만, 비지도 객체 발견(unsupervised object discovery)의 성능을 크게 향상시키는데, VOC07, VOC12, COCO20K 데이터셋에서 각각 6.9%, 8.1%, 8.1% 개선되었습니다. 클래스 정보와 무관한 검출기(class-agnostic detector, CAD)를 추가 단계로 포함하면 성능이 더욱 향상됩니다. 제안된 방법은 비지도 주요성 검출(unsupervised saliency detection)과 약간 감독된 객체 검출(weakly supervised object detection)에도 쉽게 확장될 수 있습니다. 비지도 주요성 검출의 경우, ECSSD, DUTS, DUT-OMRON 데이터셋에서 각각 4.9%, 5.2%, 12.9%의 IoU 개선율을 보였으며, 이는 이전 최신 연구보다 우수한 결과입니다. 약간 감독된 객체 검출에서는 CUB와 ImageNet에서 경쟁력 있는 성능을 달성하였습니다.

자기 감독 변환기의 정규화된 컷을 이용한 비감독 객체 발견 | 최신 연구 논문 | HyperAI초신경