12일 전

메멕스 질의 응답을 위한 집중형 시각-텍스트 주의 메커니즘

{Li-Jia Li, Yannis Kalantidis, Junwei Liang, and Alexander Hauptmann, Lu Jiang, Liangliang Cao}
초록

최근 신경망을 활용한 언어 및 비전 분야의 통찰은 단순한 단일 이미지 시각질의 답변(Visual Question Answering, VQA)에 성공적으로 적용되어 왔다. 그러나 개인 사진 앨범과 같은 멀티미디어 컬렉션에서 실제 생활 상황의 질문에 답하는 문제를 해결하기 위해서는 사진들의 시퀀스 전체를 고려해야 한다. 본 논문은 새로운 다중모달 MemexQA 작업을 제안한다. 사용자가 제공한 사진 시퀀스를 바탕으로, 해당 사진들에 담긴 이벤트에 대한 사용자의 기억을 회복하는 데 도움이 되는 질문에 자동으로 답변하는 것을 목표로 한다. 답변은 텍스트 형식뿐만 아니라, 답변을 뒷받침하는 몇몇 지표 사진(grounding photos)도 함께 제공된다. 지표 사진은 사용자가 답변의 정확성을 신속하게 확인하는 데 필수적이다. 이 작업을 해결하기 위해 본 연구는 1) 실제 개인 사진 앨범으로 구성된, 공개적으로 이용 가능한 최초의 다중모달 질문 응답 데이터셋인 MemexQA 데이터셋을 제시하고, 2) 순차적 데이터에서 질문에 답하기 위해 어떤 미디어와 어떤 시점을 집중해야 할지를 동적으로 결정할 수 있는 계층적 처리 방식을 활용한 엔드 투 엔드 학습 가능한 네트워크를 제안한다. MemexQA 데이터셋에 대한 실험 결과는 제안한 모델이 강력한 기준 모델들을 능가하며, 이 도전적인 과제에서 가장 관련성이 높은 지표 사진을 생성함을 보여준다.

메멕스 질의 응답을 위한 집중형 시각-텍스트 주의 메커니즘 | 최신 연구 논문 | HyperAI초신경