16일 전
LAMV: 커널화된 시간층을 활용한 비디오 정렬 및 매칭 학습
{Hervé Jégou, Rita Cucchiara, Matthijs Douze, Lorenzo Baraldi}

초록
이 논문은 비디오를 비교하고 정렬하기 위한 학습 가능한 접근법을 제안한다. 우리의 아키텍처는 신경망 내부의 시간적 매칭 커널을 기반으로 하되, 이를 재검토하고 발전시킨다. 구체적으로, 두 벡터 시퀀스 간의 유사도 점수를 시간에 민감한 유사도 측도(푸리에 도메인에서 매개변수화된)에 따라 최대화함으로써 시간적 정렬을 찾는 새로운 시간층을 제안한다. 이 시간층은 시간적 제안 전략을 통해 학습되며, 정렬 정확도와 인식률을 모두 고려한 트리플릿 손실을 최소화하는 방식으로 학습된다. 제안된 방법은 비디오 정렬, 복사 탐지, 이벤트 검색 작업에서 평가되었으며, 비교 가능한 설정에서 최신 기술을 능가하는 성능을 보였다. 특히 특정 이벤트 검색에 있어서는 보고된 최고 성능을 달성하면서도 정확한 비디오 정렬을 가능하게 했다.