SimpleClick: 간단한 비전 트랜스포머를 이용한 인터랙티브 이미지 세그멘테이션

클릭 기반 상호작용 이미지 세분화는 제한된 사용자 클릭을 통해 객체를 추출하는 것을 목표로 한다. 현재의 방법들에서 계층적 백본(Backbone)은 사실상의 아키텍처로 자리 잡고 있다. 최근에는 단순한 비계층적 비전 트랜스포머(Vision Transformer, ViT)가 밀도 높은 예측 작업에 경쟁력 있는 백본으로 부상하고 있다. 이러한 설계는 원래의 ViT를 사전 훈련을 위해 계층적 백본을 재설계하지 않고도 하류 작업에 맞게 미세조정할 수 있는 기초 모델(foundation model)로 활용할 수 있게 한다. 비록 이 설계는 간단하고 효과성이 입증되었지만, 상호작용 이미지 세분화 분야에서는 아직 탐색되지 않았다. 이러한 격차를 메우기 위해, 우리는 단순한 백본을 활용하는 최초의 상호작용 세분화 방법인 SimpleClick을 제안한다. 단순한 백본을 기반으로, 백본 자체의 구조를 최소한으로 수정하면서 클릭 정보를 인코딩할 수 있는 대칭적 패치 임베딩 레이어를 도입한다. 사전 훈련 시 마스크ed 자동에코더(Masked Autoencoder, MAE)로 훈련된 단순한 백본을 사용함으로써, SimpleClick은 최신 기준(SOTA) 성능을 달성한다. 특히, SBD 데이터셋에서 NoC@90 기준으로 4.15의 성능을 기록하며, 이전 최고 성능 대비 21.8% 향상된 결과를 보였다. 의료 이미지에 대한 광범위한 평가를 통해 본 방법의 일반화 능력을 입증하였다. 또한 SimpleClick을 위한 극도로 소형화된 ViT 백본을 개발하고, 상세한 계산 분석을 제공함으로써, 본 방법이 실용적인 레이블링 도구로서의 적합성을 강조하였다.