11일 전

자기지도 학습 트랜스포머를 이용한 비지도 인스턴스 세그멘테이션을 위한 K-means

{Lee HongChul, Lee MinYoung, Park JaeEon, Lim SeongTaek}
초록

인스턴스 세그멘테이션은 컴퓨터 비전에서 각 픽셀을 적절한 클래스에 할당하고 객체를 경계 박스로 정위치화하는 핵심적인 작업이다. 그러나 분류나 탐지 레이블을 수집하는 것보다 픽셀 단위의 세그멘테이션 레이블을 수집하는 것은 더 많은 자원과 시간을 소요한다. 본 연구에서는 단순한 K-평균 군집화와 자기지도 학습 시각 트랜스포머(Self-supervised Vision Transformer)를 활용하여 반복적인 마스크 정제를 수행하는 새로운 접근법, 즉 자기지도 트랜스포머를 이용한 반복 마스크 정제(IMST: Iterative Mask Refinement using a Self-supervised Transformer)를 제안한다. IMST는 클래스에 종속되지 않은 비지도 인스턴스 세그멘테이션을 수행하며, 생성된 가짜 지도 레이블(pseudo-ground-truth labels)을 사용해 기존의 인스턴스 세그멘테이션 모델을 훈련시킬 수 있다. 이 가짜 레이블은 다양한 데이터셋에서 성능 향상을 보였다. 가짜 레이블로 훈련된 인스턴스 세그멘테이션 모델은 훈련 손실이나 아키텍처에 어떠한 수정 없이도 COCO20k(+4.0 AP), COCO val2017(+2.6 AP)에서 최신 비지도 인스턴스 세그멘테이션 방법들을 초월하는 성능을 나타냈다. 또한 본 방법이 단일/다중 객체 탐지 및 지도 학습 기반의 세그멘테이션 모델 미세 조정 등의 작업으로 확장 가능함을 보여주었으며, 기존 방법들을 모두 능가하는 성능을 입증하였다.

자기지도 학습 트랜스포머를 이용한 비지도 인스턴스 세그멘테이션을 위한 K-means | 최신 연구 논문 | HyperAI초신경