2달 전
TokenCut: Self-supervised Transformer와 Normalized Cut을 이용한 이미지 및 비디오 객체 분할
Yangtao Wang; Xi Shen; Yuan Yuan; Yuming Du; Maomao Li; Shell Xu Hu; James L Crowley; Dominique Vaufreydaz

초록
본 논문에서는 자기 지도 트랜스포머(self-supervised transformer)에서 얻은 특성을 사용하여 이미지와 비디오에서 주요 객체를 검출하고 분할하는 그래프 기반 알고리즘을 설명합니다. 이 접근 방식을 통해 이미지 또는 비디오를 구성하는 패치들이 완전히 연결된 그래프로 조직되며, 각 패치 쌍 간의 엣지는 트랜스포머가 학습한 특성을 사용하여 패치 간 유사성 점수로 라벨링됩니다. 주요 객체의 검출과 분할은 그래프 컷 문제로 정식화되어 고전적인 정규화 컷(Normalized Cut) 알고리즘을 사용하여 해결됩니다. 이 접근 방식이 단순함에도 불구하고, 일반적인 이미지와 비디오 검출 및 분할 작업에서 최신 기술(state-of-the-art) 결과를 달성합니다.무감독 객체 발견 작업에서 이 접근 방식은 VOC07, VOC12, COCO20K 데이터셋을 사용하여 테스트했을 때 각각 6.1%, 5.7%, 2.6%의 마진으로 경쟁 모델들을 능가합니다. 이미지 무감독 주요성 검출 작업에서는 교차율(IoU, Intersection over Union) 점수가 각각 4.4%, 5.6%, 5.2% 개선되었습니다. ECSSD, DUTS, DUT-OMRON 데이터셋을 사용하여 테스트했을 때 현재 최신 기술과 비교해도 우수한 성능을 보입니다. 또한 DAVIS, SegTV2, FBMS 데이터셋을 사용한 무감독 비디오 객체 분할 작업에서도 경쟁력 있는 결과를 달성하였습니다.