2달 전

CLIP-It! 언어 안내형 비디오 요약

Medhini Narasimhan; Anna Rohrbach; Trevor Darrell
CLIP-It! 언어 안내형 비디오 요약
초록

일반적인 비디오 요약은 전체 이야기를 전달하고 가장 중요한 장면들을 포함하는 축약된 버전의 비디오입니다. 그러나 비디오 내 장면들의 중요성은 종종 주관적이며, 사용자들은 자연어를 사용하여 자신에게 중요한 내용을 지정할 수 있는 옵션이 있어야 합니다. 또한, 완전 자동 일반 요약을 위한 기존 모델들은 주요성에 대한 효과적인 사전 정보로 활용될 수 있는 언어 모델을 활용하지 않았습니다. 본 연구에서는 문헌에서 일반적으로 별도로 접근되는 일반 비디오 요약과 쿼리 중심 비디오 요약을 모두 처리하기 위한 단일 프레임워크인 CLIP-It를 소개합니다. 우리는 언어 안내형 다중모드 트랜스포머를 제안하는데, 이는 비디오 내 프레임들의 상대적 중요성과 사용자가 정의한 쿼리(쿼리 중심 요약의 경우) 또는 자동으로 생성된 밀집형 비디오 캡션(일반 비디오 요약의 경우)과의 연관성을 기반으로 프레임 점수를 학습합니다. 우리의 모델은 지도 학습이 아닌 무지도 학습 설정으로 확장될 수 있으며, 이를 위해 실제 라벨 없이 훈련할 수 있습니다. 우리는 표준 비디오 요약 데이터셋(TVSum 및 SumMe)과 쿼리 중심 비디오 요약 데이터셋(QFVS)에서 기존 베이스라인 및 선행 연구보다 크게 우수한 성능을 보였습니다. 특히, 전이 학습 설정에서 큰 개선을 이루어냈으며, 이는 우리의 방법론이 강력한 일반화 능력을 가지고 있음을 입증합니다.

CLIP-It! 언어 안내형 비디오 요약 | 최신 연구 논문 | HyperAI초신경