2달 전

깊은 구조 모델을 이용한 빠른 비디오 샷 전환 위치 결정

Tang, Shitao ; Feng, Litong ; Kuang, Zhangkui ; Chen, Yimin ; Zhang, Wei
깊은 구조 모델을 이용한 빠른 비디오 샷 전환 위치 결정
초록

비디오 샷 전환 검출은 비디오 분석에서 중요한 사전 처리 단계입니다. 이전 연구들은 프레임 간의 갑작스러운 콘텐츠 변화를 유사도 측정과 다중 스케일 연산을 통해 감지하는 데 제한적이었습니다. 이러한 다중 스케일 연산은 다양한 길이의 전환을 처리하기 위해 널리 활용되었습니다. 그러나, 인접 프레임 간 높은 시각적 유사성 때문에 점진적인 전환의 위치 결정은 아직 충분히 탐구되지 않았습니다. 컷 샷 전환은 갑작스러운 의미론적 중단을 나타내며, 점진적인 샷 전환은 점진적인 의미론적 중단뿐만 아니라 비디오 효과로 인한 저수준 공간-시간 패턴(예: 녹화)을 포함합니다. 이 문제를 해결하기 위해, 우리는 두 가지 샷 전환을 각각 대상 모델을 사용하여 감지할 수 있는 구조화된 네트워크를 제안합니다. 속도와 성능의 균형을 고려하여, 우리는 지능형 프레임워크를 설계하였습니다. 제안된 방법은 하나의 TITAN GPU를 사용할 때 30배 실시간 속도를 달성할 수 있습니다. 공개 TRECVID07 및 RAI 데이터베이스에서 수행된 실험 결과, 우리의 방법이 최신 기술보다 우수함이 입증되었습니다. 고성능 샷 전환 검출기를 훈련시키기 위해, 우리는 4039개 온라인 비디오에서 128,636개의 컷 전환과 38,120개의 점진적 전환을 포함하는 새로운 데이터베이스 ClipShots를 제공합니다. ClipShots는 핸드헬드 카메라 진동, 큰 객체 움직임, 가림 등으로 인해 더 어려운 경우가 많은 짧은 비디오들을 의도적으로 수집하였습니다.

깊은 구조 모델을 이용한 빠른 비디오 샷 전환 위치 결정 | 최신 연구 논문 | HyperAI초신경