2달 전
영화 스토리 질문 응답을 위한 점진적 주의 메모리 네트워크
Junyeong Kim; Minuk Ma; Kyungsu Kim; Sungjin Kim; Chang D. Yoo

초록
본 논문은 영화 스토리 질문 응답(QA)을 위한 진보적 주의 메모리 네트워크(PAMN, Progressive Attention Memory Network)를 제안합니다. 영화 스토리 QA는 시각-질문 응답(VQA)에 비해 두 가지 측면에서 도전적입니다: (1) 영화가 보통 1시간보다 길기 때문에 질문에 관련된 시간적인 부분을 정확히 찾아내는 것이 어렵습니다, (2) 비디오와 자막이 모두 포함되어 있어, 다른 질문마다 다른 모달리티를 통해 답변을 추론해야 합니다. 이러한 도전을 극복하기 위해 PAMN은 세 가지 주요 특징을 포함합니다: (1) 질문과 답변으로부터 단서를 활용하여 기억에서 관련 없는 시간적인 부분을 점진적으로 제거하는 진보적 주의 메커니즘, (2) 현재 질문에 대한 답변을 위해 각 모달리티의 기여도를 적응적으로 결정하는 동적 모달리티 융합, 그리고 (3) 후보 답변 각각의 예측 점수를 차례대로 수정하는 신념 교정 답변 방식입니다. 공개된 벤치마크 데이터셋인 MovieQA와 TVQA에서 수행한 실험 결과, 각 특징이 우리의 영화 스토리 QA 아키텍처인 PAMN에 기여하며 성능을 향상시켜 최신 연구 결과를 달성함을 입증하였습니다. 또한 PAMN의 추론 메커니즘을 시각화한 질적 분석도 제공되었습니다.