
초록
대화형 객체 선택은 매우 중요한 연구 문제이며 다양한 응용 분야가 있습니다. 이전 알고리즘들은 전경과 배경 분포를 추정하기 위해 많은 사용자 상호작용이 필요했습니다. 본 논문에서는 객체성(objectness)을 더 잘 이해하는 새로운 딥 러닝 기반 알고리즘을 제시합니다. 이 알고리즘은 사용자가 제공한 양성 및 음성 클릭을 두 개의 유클리드 거리 맵으로 변환하고, 이를 이미지의 RGB 채널과 결합하여 (이미지, 사용자 상호작용) 쌍을 구성합니다. 우리는 여러 무작위 샘플링 전략을 조합하여 사용자의 클릭 패턴을 모델링하고, 이러한 쌍들을 생성하여 깊은 완전 컨볼루션 네트워크(FCNs)를 미세 조정(fine-tune)하는데 활용합니다. 마지막으로, 우리의 FCN 8s 모델의 출력 확률 맵은 그래프 컷 최적화(graph cut optimization)와 통합되어 경계 세그먼트를 정교하게 수정합니다. 우리의 모델은 PASCAL 세그멘테이션 데이터셋에서 학습되었으며, 다른 객체 클래스를 포함하는 다른 데이터셋에서 평가되었습니다. 실험 결과는 이미 본 객체와 처음 보는 객체 모두에 대해 우리의 알고리즘이 좋은 일반화 능력을 가지고 있으며, 모든 기존 대화형 객체 선택 접근 방식보다 우수함을 명확히 입증하고 있습니다.