2달 전
누가 월도인가? 텍스트와 이미지에서 사람들을 연결하기
Claire Yuqing Cui; Apoorv Khandelwal; Yoav Artzi; Noah Snavely; Hadar Averbuch-Elor

초록
우리는 사람 중심의 시각적 근거화 문제, 즉 캡션에서 언급된 사람과 이미지에 나타난 사람 사이의 연결 문제를 위한 작업 및 벤치마크 데이터셋을 제시합니다. 이전의 시각적 근거화 연구가 주로 객체 기반인 것과 달리, 우리의 새로운 작업은 캡션에서 사람들의 이름을 마스킹하여 이러한 이미지-캡션 쌍으로 훈련된 방법들이 이름과 외모 간의 연관성을 배우는 대신 여러 사람 간의 풍부한 상호작용 등의 문맥적 단서에 집중하도록 유도합니다. 이 작업을 지원하기 위해, 우리는 위키미디어 커먼즈에서 자동으로 추출한 이미지-캡션 데이터로부터 '누가 월도인가(Who's Waldo)'라는 새로운 데이터셋을 소개합니다. 우리는 이 작업에서 여러 강력한 기준 모델을 능가하는 트랜스포머 기반 방법을 제안하며, 비주얼과 언어 모두를 고려하는 문맥적 모델에 대한 연구를 촉진하기 위해 우리의 데이터를 연구 커뮤니티에 공개할 예정입니다.