2달 전

ViSiL: 세부적인 시공간 영상 유사도 학습

Giorgos Kordopatis-Zilos; Symeon Papadopoulos; Ioannis Patras; Ioannis Kompatsiaris
ViSiL: 세부적인 시공간 영상 유사도 학습
초록

본 논문에서는 ViSiL(Video Similarity Learning)이라는 비디오 유사성 학습 아키텍처를 소개합니다. 이 아키텍처는 두 비디오 간의 세밀한 시공간 관계를 고려하며, 이러한 관계는 이전의 비디오 검색 접근 방식에서 전체 프레임 또는 심지어 전체 비디오를 벡터 설명자로 임베딩한 후 유사성을 추정하는 과정에서 일반적으로 손실됩니다. 대조적으로, 우리의 컨벌루션 신경망(CNN) 기반 접근 방식은 정교한 프레임-프레임 유사성 행렬로부터 비디오-비디오 유사성을 계산하도록 훈련되며, 이를 통해 프레임 내부와 프레임 간의 관계 모두를 고려할 수 있습니다.제안된 방법에서는 지역 CNN 프레임 특징에 Tensor Dot(TD)을 적용한 후 Chamfer Similarity(CS)를 사용하여 쌍별 프레임 유사성을 추정합니다. 이는 프레임 간 유사성 계산 전에 특징 집합을 피하는 역할을 합니다. 그 다음, 모든 비디오 프레임 간의 유사성 행렬이 4층짜리 CNN에 입력되고, Chamfer Similarity(CS)를 사용하여 비디오-비디오 유사성 점수로 요약됩니다. 이 과정은 비디오 간 유사성 계산 전에 특징 집합을 피하고, 일치하는 프레임 시퀀스 간의 시간적 유사성 패턴을 포착합니다.우리는 제안된 네트워크를 트리플렛 손실(triplet loss) 방식으로 훈련시키고, 네 가지 다른 비디오 검색 문제에 대한 다섯 개의 공개 벤치마크 데이터셋에서 평가하였습니다. 실험 결과, 기존 최신 연구보다 크게 향상된 성능을 보였습니다. ViSiL의 구현은 공개적으로 제공되고 있습니다.