
초록
우리는 JSFusion (Joint Sequence Fusion, 공동 시퀀스 융합)이라는 접근법을 제시합니다. 이 방법은 임의의 다중 모달 시퀀스 데이터(예: 비디오 클립과 언어 문장) 간의 의미적 유사성을 측정할 수 있습니다. 우리의 다중 모달 매칭 네트워크는 두 가지 핵심 구성 요소로 이루어져 있습니다. 첫째, Joint Semantic Tensor(공동 의미 텐서)는 두 시퀀스 데이터의 밀집된 쌍별 표현을 3차원 텐서로 구성합니다. 둘째, Convolutional Hierarchical Decoder(컨벌루션 계층 해독기)는 두 시퀀스 모달 간에 숨겨진 계층 매칭을 발견하여 그들의 유사성 점수를 계산합니다. 두 모듈 모두 하향식(bottom-up) 방식으로 잘 맞는 표현 패턴을 강화하고 잘못 정렬된 것을 제거하는 계층 주의 메커니즘을 활용합니다. JSFusion은 모든 다중 모달 시퀀스 데이터에 적용 가능한 보편적인 모델이지만, 본 연구에서는 비디오-언어 작업을 중심으로 다루며, 이에는 다중 모달 검색 및 비디오 QA가 포함됩니다. 우리는 LSMDC에서 세 가지 검색 및 VQA 작업에서 JSFusion 모델을 평가하였으며, 이 작업들에서 우리 모델은 지금까지 보고된 최고 성능을 달성하였습니다. 또한 MSR-VTT 데이터셋에서 다중 선택 및 영화 검색 작업을 수행하였으며, 우리 접근법은 많은 최신 기술보다 우수한 성능을 보였습니다.