16일 전
PhraseCut: 자연 환경에서의 언어 기반 이미지 세그멘테이션
Chenyun Wu, Zhe Lin, Scott Cohen, Trung Bui, Subhransu Maji

초록
자연어 표현을 주어진 이미지 영역으로 분할하는 문제를 고려하며, 77,262개의 이미지와 345,486개의 표현-영역 쌍으로 구성된 새로운 데이터셋에서 이 문제를 연구한다. 본 데이터셋은 Visual Genome 데이터셋 위에 수집되었으며, 기존의 어노테이션을 바탕으로 해당 영역이 수동으로 어노테이션된 도전적인 참조 표현들을 생성한다. 본 데이터셋 내 표현들은 여러 개의 영역을 지칭하며, 다양한 객체 및 스태프 카테고리와 그 속성(색상, 형태, 부분, 이미지 내 다른 실체들과의 관계 등)을 포함한다. 실험 결과, 본 데이터셋의 규모와 개념의 다양성이 기존 최첨단 기술에 큰 도전을 제기함을 보여준다. 우리는 이러한 개념들의 긴 꼬리(long-tail) 특성을 체계적으로 다루며, 카테고리, 속성, 관계 정보를 조합하는 모듈러한 접근 방식을 제안한다. 이 방식은 기존 방법들을 능가하는 성능을 보인다.