2달 전

기억하시나요? 크로스 모달 메모리 검색을 활용한 밀집 비디오 캡셔닝

Kim, Minkuk ; Kim, Hyeon Bae ; Moon, Jinyoung ; Choi, Jinwoo ; Kim, Seong Tae

초록

비디오의 모든 이벤트를 자동으로 위치추정하고 설명하는 밀집 비디오 캡셔닝 연구에 많은 관심이 집중되고 있습니다. 여러 연구에서는 이벤트 위치추정과 이벤트 캡셔닝 간의 상호작용 관계를 고려하기 위해 밀집 비디오 캡셔닝을 다중태스크 문제로 설계한 방법을 제안하였습니다. 그러나 시각적 입력만으로 두 가지 작업을 모두 처리하는 것은 의미론적 내용 부족으로 인해 어려움이 따릅니다. 본 연구에서는 이러한 문제를 해결하기 위해 인간의 인지 정보 처리 과정에서 영감을 받은 새로운 프레임워크를 제안합니다. 우리의 모델은 외부 메모리를 활용하여 사전 지식을 통합합니다. 크로스 모달 비디오-텍스트 매칭 기법을 사용한 메모리 검색 방법이 제안되었습니다. 검색된 텍스트 특성을 효과적으로 통합하기 위해 다목적 인코더와 시각적 및 텍스트 크로스-어텐션 모듈을 갖춘 디코더가 설계되었습니다. ActivityNet Captions 및 YouCook2 데이터셋에서 제안된 방법의 효과성을 보여주기 위한 비교 실험들이 수행되었습니다. 실험 결과는 대규모 비디오 데이터셋에서의 광범위한 사전 학습 없이도 우리 모델의 유망한 성능을 입증해주고 있습니다.