
초록
우리는 대규모 다중 모드 영화 스토리 이해를 위한 질문-답변 작업을 수행하기 위해 새로운 메모리 네트워크 모델인 읽기-쓰기 메모리 네트워크 (Read-Write Memory Network, RWMN)를 제안합니다. 우리 RWMN 모델의 핵심은 여러 개의 컨볼루션 계층으로 구성된 읽기 네트워크와 쓰기 네트워크를 설계하는 것입니다. 이는 메모리 읽기 및 쓰기 연산이 높은 용량과 유연성을 가지도록 합니다. 기존의 메모리 강화형 네트워크 모델들이 각 메모리 슬롯을 독립적인 블록으로 취급하는 반면, 우리는 다층 컨볼루션 신경망(CNN)을 사용하여 모델이 순차적인 메모리 셀들을 덩어리로 읽고 쓸 수 있도록 하였습니다. 이는 인접한 메모리 블록들 사이에 강한 상관관계가 종종 존재하므로, 순차적인 스토리를 표현하는 데 더 합리적입니다. 평가를 위해 우리의 모델을 MovieQA 벤치마크의 모든 6개 작업에 적용하였으며, 특히 시각적 QA 작업에서 여러 작업에서 최고의 정확도를 달성하였습니다. 우리의 모델은 스토리 내의 내용뿐만 아니라 캐릭터 간 관계와 그들의 행동 이유 등 더 추상적인 정보를 더 잘 이해할 잠재력을 보여주었습니다.