2달 전

시각적 질문 응답을 위한 주요 시각-텍스트 주의력

Junwei Liang; Lu Jiang; Liangliang Cao; Li-Jia Li; Alexander Hauptmann
시각적 질문 응답을 위한 주요 시각-텍스트 주의력
초록

최근 신경망을 활용한 언어와 시각에 대한 연구는 간단한 단일 이미지 시각 질문 응답에 성공적으로 적용되었습니다. 그러나 개인 사진과 같은 멀티미디어 컬렉션의 실제 질문 응답 문제를 해결하기 위해서는 사진이나 비디오의 연속성을 고려하여 전체 컬렉션을 살펴봐야 합니다. 대규모 컬렉션에서 질문에 답할 때 자연스럽게 발생하는 문제는 답변을 뒷받침할 수 있는 조각(snippets)을 식별하는 것입니다. 본 논문에서는 이러한 시각 질문 응답에서 집합적 추론을 수행하기 위해 시각 및 텍스트 시퀀스 정보(이미지와 텍스트 메타데이터 등)를 처리하는 새로운 신경망 모델인 Focal Visual-Text Attention 네트워크(FVTA)를 설명합니다. FVTA는 엔드투엔드 접근 방식을 도입하여, 순차 데이터에서 어떤 미디어와 언제 집중해야 하는지를 동적으로 결정합니다. FVTA는 질문에 잘 답할 뿐만 아니라, 답변의 근거가 되는 시스템 결과물을 제공합니다. FVTA는 MemexQA 데이터셋에서 최고 수준의 성능을 보여주며, MovieQA 데이터셋에서도 경쟁력 있는 결과를 얻었습니다.

시각적 질문 응답을 위한 주요 시각-텍스트 주의력 | 최신 연구 논문 | HyperAI초신경