11일 전

Transformer를 활용한 객체 마스크 탐지를 통한 비지도 의미 분할

Wouter Van Gansbeke, Simon Vandenhende, Luc Van Gool
Transformer를 활용한 객체 마스크 탐지를 통한 비지도 의미 분할
초록

비지도(semi-supervised) 의미 분할(motion segmentation)의 과제는 픽셀들을 의미적으로 유의미한 그룹으로 군집화하는 것을 목표로 한다. 구체적으로, 동일한 군집에 속하는 픽셀들은 객체나 부위의 카테고리와 같은 고수준의 의미적 특성을 공유해야 한다. 본 논문에서는 세 가지 핵심 아이디어를 기반으로 한 새로운 프레임워크인 MaskDistill을 제안한다. 첫째, 의미 분할을 위한 픽셀 군집화 사전 지식(prior)으로 사용할 수 있는 객체 마스크를 생성하기 위해 데이터 기반(data-driven) 전략을 제안한다. 이 접근법은 특정 시나리오 구성에 맞춰 수작업으로 설계된 사전 지식을 배제함으로써, 기존의 경쟁적 프레임워크들이 가지는 적용 범위의 제약을 극복한다. 둘째, MaskDistill은 생성된 객체 마스크들을 군집화하여 초기 객체 분할 모델 학습을 위한 의사-정답(pseudo-ground-truth)을 얻는다. 셋째, 이 모델을 활용하여 저품질의 객체 마스크를 필터링한다. 이 전략은 픽셀 군집화 사전 지식 내의 노이즈를 완화시키며, 최종 분할 모델 학습에 사용할 수 있는 깨끗한 마스크 집합을 확보한다. 이러한 구성 요소들을 결합함으로써, PASCAL 데이터셋에서는 mIoU 기준으로 기존 방법 대비 11% 향상되고, COCO 데이터셋에서는 mask AP50 기준으로 4% 향상되는 성과를 달성한다. 흥미롭게도, 기존의 접근법들과는 달리, 본 프레임워크는 저수준의 이미지 특징에 의존하지 않으며 객체 중심 데이터셋에 국한되지 않는다. 코드와 모델은 공개될 예정이다.

Transformer를 활용한 객체 마스크 탐지를 통한 비지도 의미 분할 | 최신 연구 논문 | HyperAI초신경