
초록
주어진 문장 문맥에서 특정 비디오 클립을 매칭하거나 그 반대의 작업을 수행하는 방법을 제안한다. 기존의 비디오와 텍스트 간의 매칭은 공유 임베딩 공간을 학습하는 방식으로 이루어지며, 한 모달리티의 인코딩은 다른 모달리티와 독립적으로 수행된다. 본 연구에서는 질의(query)와 관련된 정보를 고려하여 데이터셋을 인코딩하는 방식을 제안한다. 이 방법의 강점은 단어와 프레임 간의 상호작용 정보를 통합하는 데 있다. 비디오 클립의 인코딩이 비교되는 문장에 따라 달라지기 때문에, 각 잠재적 매칭에 대해 표현을 다시 계산해야 한다. 이를 위해 효율적인 얕은 신경망을 제안하며, 그 학습에는 계층적 트리플릿 손실(hierarchical triplet loss)을 사용한다. 이 손실 함수는 단락/비디오 매칭 등으로 확장 가능하다. 제안하는 방법은 간단하고 설명 가능성이 뛰어나며, ActivityNet, DiDeMo, YouCook2, MSR-VTT, LSMDC 등 다섯 가지 서로 다른 데이터셋에서 문장-클립 매칭과 비디오-텍스트 매칭 모두에서 기존의 최고 성능을 크게 상회하는 결과를 달성한다. 또한, 조건부 표현(conditioned representation)이 비디오 가이드 기계 번역(video-guided machine translation)에 전이 가능함을 보여주었으며, 이로써 VATEX 데이터셋에서 현재의 최고 성능을 개선하였다. 소스 코드는 https://github.com/AmeenAli/VideoMatch 에서 제공된다.