2달 전

시각적 근거를 위한 다양하고 차별화된 제안 생성 재고

Zhou Yu; Jun Yu; Chenchao Xiang; Zhou Zhao; Qi Tian; Dacheng Tao
시각적 근거를 위한 다양하고 차별화된 제안 생성 재고
초록

시각적 정착(visual grounding)은 텍스트 쿼리 문구로 지정된 이미지 내의 객체를 위치시키는 것을 목표로 합니다. 다양한 시각적 정착 접근법이 제안되었으며, 이 문제는 일반적인 프레임워크로 모듈화될 수 있습니다: 제안 생성, 다중 모달 특성 표현, 그리고 제안 순위 결정. 이러한 세 가지 모듈 중에서 기존의 대부분 접근법은 후자의 두 가지에 집중하며, 제안 생성의 중요성은 일반적으로 간과되었습니다. 본 논문에서는 좋은 제안 생성기의 속성을 결정하는 문제를 재고합니다. 우리는 제안을 생성할 때 다양성(diversity)과 차별성(discrimination)을 동시에 도입하며, 이를 통해 다양하고 차별적인 제안 네트워크 모델(Diversified and Discriminative Proposal Networks, DDPN)을 제안합니다. DDPN이 생성한 제안을 바탕으로, 우리는 시각적 정착을 위한 고성능 베이스라인 모델을 제안하고 네 개의 벤치마크 데이터셋에서 평가합니다. 실험 결과는 우리의 모델이 모든 테스트 데이터셋에서 현저한 개선 효과를 보였음을 입증합니다(예: ReferItGame에서는 18.8%, Flickr30k Entities에서는 8.2% 각각 기존 최신 기술(state-of-the-arts) 대비 개선됨).

시각적 근거를 위한 다양하고 차별화된 제안 생성 재고 | 최신 연구 논문 | HyperAI초신경