
초록
본 논문에서는 자연어 표현을 기반으로 이미지를 분할하는 새로운 문제에 접근합니다. 이는 예를 들어 "오른쪽 벤치에 앉아 있는 두 명의 남자"라는 문장이 오직 오른쪽 벤치에 앉아 있는 두 사람만을 분할하고 다른 벤치에 서거나 앉아 있는 사람은 분할하지 않는다는 점에서 사전 정의된 의미 클래스 집합 위에서 이루어지는 전통적인 의미 분할과 다릅니다. 이 작업에 적합한 이전 접근 방식들은 고정된 카테고리 집합이나 직사각형 영역에 제한되어 있었습니다. 자연어 표현에 대한 픽셀 단위 분할을 생성하기 위해, 시각적 정보와 언어적 정보를 동시에 처리하도록 학습되는 엔드투엔드 훈련 가능한 순환 및 컨볼루션 네트워크 모델을 제안합니다. 본 모델에서 순환 LSTM 네트워크는 참조 표현을 벡터 표현으로 인코딩하는 데 사용되며, 완전 컨볼루션 네트워크는 이미지에서 공간적 특징 맵을 추출하고 대상 객체의 공간적 반응 맵을 출력하는 데 사용됩니다. 벤치마크 데이터셋에서 본 모델이 자연어 표현으로부터 고품질의 분할 결과를 생성하며, 기준 방법들보다 크게 우수함을 입증하였습니다.