2달 전
참조 표현에서의 관계 모델링을 위한 조합적 모듈 네트워크
Ronghang Hu; Marcus Rohrbach; Jacob Andreas; Trevor Darrell; Kate Saenko

초록
사람들은 종종 이미지 내의 개체를 다른 개체와의 관계로 표현합니다. 예를 들어, "테이블 아래에 앉아 있는 검은 고양이"는 "검은 고양이" 개체와 "테이블" 개체와의 관계를 모두 포함합니다. 이러한 관계를 이해하는 것은 자연어 표현을 해석하고 장면에 근거시키는 데 필수적입니다. 이전 연구 대부분은 전체 참조 표현을 하나의 영역에 통합적으로 근거시키거나, 고정된 범주 집합을 기반으로 관계를 위치 지키는 데 초점을 맞추었습니다. 본 논문에서는 대신 참조 표현을 구성 요소로 분석하고, 입력 표현에서 언급된 개체와 관계를 식별하여 장면에 모두 근거시킬 수 있는 모듈형 딥 아키텍처를 제시합니다. 우리는 이를 조합 모듈 네트워크(Compositional Modular Networks, CMNs)라고 부르며, 언어 분석과 시각적 추론을 엔드투엔드로 학습하는 새로운 아키텍처입니다. 우리의 접근 방식은 지역 영역을 검사하고 영역 간 쌍별 상호작용을 처리하는 두 가지 유형의 신경망 모듈 중심으로 구축되었습니다. 우리는 여러 참조 표현 데이터셋에서 CMNs를 평가하였으며, 모든 작업에서 최신 기술보다 우수한 성능을 보였습니다.