2달 전
자연어 객체 검색
Ronghang Hu; Huazhe Xu; Marcus Rohrbach; Jiashi Feng; Kate Saenko; Trevor Darrell

초록
본 논문에서는 자연어 객체 검색 작업을 다루며, 주어진 이미지 내에서 객체에 대한 자연어 쿼리를 기반으로 대상 객체를 위치 결정하는 방법을 제안합니다. 자연어 객체 검색은 텍스트 기반 이미지 검색 작업과 달리 장면 내 객체의 공간 정보와 전역적인 장면 맥락을 포함하기 때문에 다르게 접근해야 합니다. 이 문제를 해결하기 위해, 후보 박스에 대한 점수 함수로 사용할 새로운 Spatial Context Recurrent ConvNet (SCRC) 모델을 제안합니다. 이 모델은 재귀 네트워크를 통해 쿼리 텍스트, 로컬 이미지 설명자, 공간 구성 및 전역 컨텍스트 특성을 처리하고, 각 후보 박스를 조건으로 하는 쿼리 텍스트의 확률을 박스의 점수로 출력하며, 이미지 캡셔닝 영역에서 시각-언어 지식을 현재 작업으로 전달할 수 있습니다. 실험 결과는 본 방법이 로컬 정보와 전역 정보를 효과적으로 활용하며, 다양한 데이터셋과 시나리오에서 이전 베이스라인 방법들을 크게 능가함을 보여주며, 대규모 시각 및 언어 데이터셋을 활용하여 지식 전달이 가능함을 입증합니다.