2달 전

누가 월도인가? 텍스트와 이미지에서 사람들을 연결하기

Claire Yuqing Cui; Apoorv Khandelwal; Yoav Artzi; Noah Snavely; Hadar Averbuch-Elor
누가 월도인가? 텍스트와 이미지에서 사람들을 연결하기
초록

우리는 사람 중심의 시각적 근거화 문제, 즉 캡션에서 언급된 사람과 이미지에 나타난 사람 사이의 연결 문제를 위한 작업 및 벤치마크 데이터셋을 제시합니다. 이전의 시각적 근거화 연구가 주로 객체 기반인 것과 달리, 우리의 새로운 작업은 캡션에서 사람들의 이름을 마스킹하여 이러한 이미지-캡션 쌍으로 훈련된 방법들이 이름과 외모 간의 연관성을 배우는 대신 여러 사람 간의 풍부한 상호작용 등의 문맥적 단서에 집중하도록 유도합니다. 이 작업을 지원하기 위해, 우리는 위키미디어 커먼즈에서 자동으로 추출한 이미지-캡션 데이터로부터 '누가 월도인가(Who's Waldo)'라는 새로운 데이터셋을 소개합니다. 우리는 이 작업에서 여러 강력한 기준 모델을 능가하는 트랜스포머 기반 방법을 제안하며, 비주얼과 언어 모두를 고려하는 문맥적 모델에 대한 연구를 촉진하기 위해 우리의 데이터를 연구 커뮤니티에 공개할 예정입니다.

누가 월도인가? 텍스트와 이미지에서 사람들을 연결하기 | 최신 연구 논문 | HyperAI초신경