DiffusionVMR: 비디오 모멘트 검색 및 하이라이트 감지 위한 확산 모델

비디오 모먼트 검색과 하이라이트 탐지는 현재 비디오 콘텐츠가 급증하는 시대에 주목받고 있으며, 사용자 지정 쿼리에 기반하여 모먼트를 위치시키고 클립의 관련성을 추정하는 것을 목표로 합니다. 비디오 콘텐츠가 시간적으로 연속적이기 때문에, 비디오 내에서 시간적 이벤트 사이의 명확한 경계가 자주 부족합니다. 이러한 경계의 모호성은 모델이 텍스트-비디오 클립 대응 관계를 학습하는 데 어려움을 초래하여, 기존 방법들이 대상 구간을 예측하는 성능이 저하됩니다. 이 문제를 완화하기 위해, 우리는 노이즈 제거 생성의 관점에서 두 과제를 공동으로 해결하는 방안을 제안합니다. 또한, 대상 경계는 거칠게 시작하여 세밀하게 점진적으로 개선함으로써 명확히 위치시킬 수 있습니다. 구체적으로, 새로운 프레임워크인 DiffusionVMR(확산모델과 결합하여 두 과제를 통합된 조건부 노이즈 제거 생성 프로세스로 재정의)가 제안되었습니다. 학습 중에는 가우시안 노이즈가 추가되어 참값을 오염시키며, 노이즈가 포함된 후보들이 입력으로 생성됩니다. 모델은 이 노이즈 추가 프로세스를 역으로 수행하도록 학습됩니다. 추론 단계에서는 DiffusionVMR가 가우시안 노이즈에서 직접 시작하여 점진적으로 노이즈에서 의미 있는 출력으로 제안을 개선합니다. 특히, 제안된 DiffusionVMR는 추론 중에 점진적으로 결과를 개선할 수 있는 확산 모델의 장점을 계승하여, 경계 전환을 거칠게부터 세밀하게까지 강화합니다. 또한, DiffusionVMR의 학습과 추론은 분리되어 있습니다. 추론 단계에서는 학습 단계와 일관되지 않은 임의의 설정을 사용할 수 있습니다. 두 과제(모먼트 검색 및/또는 하이라이트 탐지)에 걸쳐 널리 사용되는 다섯 가지 벤치마크(QVHighlight, Charades-STA, TACoS, YouTubeHighlights 및 TVSum)에서 실시된 광범위한 실험들은 제안된 DiffusionVMR의 효과성과 유연성을 입증하였습니다.