2달 전

이질적 메모리 강화 다중 모드 주의 모델을 이용한 비디오 질문 답변

Chenyou Fan; Xiaofan Zhang; Shu Zhang; Wensheng Wang; Chi Zhang; Heng Huang
이질적 메모리 강화 다중 모드 주의 모델을 이용한 비디오 질문 답변
초록

본 논문에서는 세 가지 주요 구성 요소를 포함하는 새로운 엔드투엔드 학습 가능한 비디오 질문 응답(VideoQA) 프레임워크를 제안합니다. 1) 외관 및 움직임 특징에서 전역 컨텍스트 정보를 효과적으로 학습할 수 있는 새로운 이질 메모리; 2) 질문의 복잡한 의미를 이해하고 조회된 주제를 강조하는 재설계된 질문 메모리; 그리고 3) 관련 시각적 및 텍스트 힌트에 주목하면서 자기 갱신 주의(self-updated attention)로 다단계 추론을 수행하는 새로운 멀티모달 융합 레이어입니다.우리의 VideoQA 모델은 먼저 현재 입력과 메모리 내용을 상호작용하여 각각 전역 컨텍스트 인식 시각적 및 텍스트 특징을 생성합니다. 그 후, 멀티모달 시각적 및 텍스트 표현의 주의 기반 융합을 통해 올바른 답변을 추론합니다. 여러 차례의 추론 사이클을 통해 멀티모달 데이터의 주의 가중치를 반복적으로 개선하고 QA 쌍의 최종 표현을 향상시킬 수 있습니다. 실험 결과, 본 접근법이 네 개의 VideoQA 벤치마크 데이터셋에서 최고 수준의 성능을 달성함을 입증하였습니다.

이질적 메모리 강화 다중 모드 주의 모델을 이용한 비디오 질문 답변 | 최신 연구 논문 | HyperAI초신경