16일 전

다중 작업 샘플 전이를 통한 공동 비디오 요약 및 순간 위치 추정

{Yadong Mu, Hao Jiang}
다중 작업 샘플 전이를 통한 공동 비디오 요약 및 순간 위치 추정
초록

최근 컴퓨터 비전 분야에서 비디오 요약(video summarization)에 대한 관심이 점차 증가하고 있다. 그러나 이러한 작업의 주요 장애 요소는 레이블링된 데이터의 부족이다. 이를 해결하기 위해 본 연구는 풍부한 학습 데이터를 보유한 관련 작업(즉, 비디오 모멘트 로컬라이제이션)에서 샘플을 전이하는 새로운 접근법을 탐색한다. 본 연구의 핵심 통찰은 레이블링된 비디오 모멘트가 비디오의 의미적 핵심 부분을 나타내며, 이는 비디오 요약과 본질적으로 유사하다는 점이다. 약간의 비유를 사용하면, 비디오 요약은 비디오 모멘트의 희소하고 중복 없이 정제된 형태로 볼 수 있다. 이러한 관찰에 착안하여, 우리는 중요도 전파 기반의 공동 학습 네트워크(iPTNet)를 제안한다. 이 네트워크는 각각 비디오 요약과 모멘트 로컬라이제이션을 수행하는 두 개의 독립된 모듈로 구성되어 있으며, 각 모듈은 키프레임 또는 모멘트를 나타내는 프레임 단위의 중요도 맵을 추정한다. 교차 작업 샘플 전이를 수행하기 위해, 요약을 안내하는 중요도 맵과 로컬라이제이션을 안내하는 중요도 맵 간의 변환을 가능하게 하는 중요도 전파 모듈을 설계하였다. 이를 통해 한 작업의 데이터를 활용하여 다른 작업을 최적화하는 것이 가능해진다. 또한, 배치 기반 공동 학습으로 인한 오류 증폭을 방지하기 위해, 교차 작업 평균 학습 전략을 채택한 공동 학습 기법을 제안하여 두 작업의 공동 최적화를 실현하고, 강력한 프레임 수준의 학습 신호를 제공한다. 비디오 요약 벤치마크에서 실시한 광범위한 실험 결과, iPTNet은 기존 최고 성능의 비디오 요약 방법들을 상회하며, 비디오 요약 작업에서 데이터 부족 문제를 효과적으로 해결할 수 있는 강력한 솔루션임을 입증하였다.

다중 작업 샘플 전이를 통한 공동 비디오 요약 및 순간 위치 추정 | 최신 연구 논문 | HyperAI초신경