11일 전
CFR-ICL: 인터랙티브 이미지 세그멘테이션을 위한 단계적 전방 개선 및 반복 클릭 손실
Shoukun Sun, Min Xian, Fei Xu, Luca Capriotti, Tiankai Yao

초록
클릭 기반 상호작용 세그멘테이션은 사용자 클릭을 통해 이미지에서 관심 객체를 추출하는 것을 목표로 한다. 최근 연구들은 출력에서 제공하는 피드백을 활용함으로써 전반적인 성능을 크게 향상시켰다. 그러나 대부분의 최신 접근 방식에서는 1) 추론 단계에서 유연성이 낮은 휴리스틱 규칙을 사용하며 별도의 정밀화 모델이 필요하고, 2) 사용자 클릭 수와 모델 성능 사이의 균형을 맞추기 어렵다는 문제가 있다. 이러한 문제를 해결하기 위해, 본 연구에서는 세 가지 새로운 구성 요소를 포함하는 클릭 기반 및 마스크 가이드 상호작용 이미지 세그멘테이션 프레임워크를 제안한다. 첫째, 계단식 전방 정밀화(Cascade-Forward Refinement, CFR)는 거시적에서 미시적 방식으로 세그멘테이션 결과를 생성하는 통합 추론 프레임워크를 제공한다. 둘째, 반복 클릭 손실(Iterative Click Loss, ICL)은 모델 학습 과정에서 세그멘테이션 정확도를 향상시키면서 동시에 사용자 상호작용 횟수를 줄이는 데 기여한다. 셋째, SUEM 이미지 증강 기법은 상호작용 세그멘테이션을 위한 대규모이고 다양한 학습 데이터셋을 체계적으로 생성하는 방법이다. 광범위한 실험을 통해 제안된 방법이 다섯 개의 공개 데이터셋에서 최첨단 성능을 입증하였다. 특히 베이클리(Berkeley) 및 DAVIS 데이터셋에서 기존 최고 성능 방법을 초과하는 IoU 0.95를 달성하기 위해 각각 33.2%, 15.5%의 클릭 수를 감소시켰다.