
초록
인터랙티브 이미지 세그멘테이션은 다중모달성(multimodality)을 특징으로 한다. 사용자가 문을 클릭했을 때, 그는 문을 선택하고자 하는 것인지, 아니면 전체 집을 선택하고자 하는 것인지 명확하지 않다. 우리는 이러한 모호성을 해결하기 위한 엔드투엔드 학습 기반의 인터랙티브 이미지 세그멘테이션 접근법을 제안한다. 제안하는 아키텍처는 두 개의 합성곱 신경망(convolutional networks)을 결합한다. 첫 번째 네트워크는 사용자의 입력에 부합하는 다양한 타당한 세그멘테이션 결과를 합성하도록 학습된다. 두 번째 네트워크는 이러한 후보 세그멘테이션들 중에서 최적의 하나를 선택하도록 학습된다. 단일 해를 선택함으로써, 본 방법은 기존의 인터랙티브 세그멘테이션 인터페이스와 호환성을 유지한다. 한편, 선택 전에 다수의 다양한 후보 해를 합성함으로써, 아키텍처는 다중모달 솔루션 공간을 탐색할 수 있는 표현력을 갖추게 된다. 제안된 방법이 기존의 인터랙티브 이미지 세그멘테이션 기법들, 특히 이 문제에 합성곱 신경망을 적용한 이전 연구들보다 우수함을 입증하였으며, 동시에 훨씬 빠른 속도를 보였다.