2달 전

UnLoc: 동영상 위치 결정 작업을 위한 통합 프레임워크

Shen Yan; Xuehan Xiong; Arsha Nagrani; Anurag Arnab; Zhonghao Wang; Weina Ge; David Ross; Cordelia Schmid
UnLoc: 동영상 위치 결정 작업을 위한 통합 프레임워크
초록

대규모 이미지-텍스트 사전학습 모델인 CLIP과 같은 모델들은 편집된 비디오의 여러 비디오 수준 작업에 사용되어 왔지만, 편집되지 않은 비디오에서의 시간적 위치 결정은 아직 상대적으로 탐구되지 않은 과제입니다. 우리는 이를 위해 새로운 접근 방식인 UnLoc을 설계하였습니다. 이 방법은 사전학습된 이미지와 텍스트 타워를 사용하여 토큰을 비디오-텍스트 융합 모델에 입력합니다. 융합 모듈의 출력은 각 레벨이 프레임별 관련성 점수와 시작/종료 시간 변위를 예측하는 헤드와 연결되는 피처 피라미드를 구성하는 데 사용됩니다. 기존 연구들과 달리, 우리의 아키텍처는 단일 스테이지 모델로 동작 제안, 운동 기반 사전학습 특징 또는 표현 마스킹 없이 순간 검색(Moment Retrieval), 시간적 위치 결정(Temporal Localization), 행동 분할(Action Segmentation)을 가능하게 합니다. 전문적인 모델들과는 달리, 우리는 통합된 접근 방식으로 세 가지 다른 위치 결정 과제에서 최고 수준의 결과를 달성하였습니다. 코드는 다음과 같이 제공될 예정입니다: \url{https://github.com/google-research/scenic}.

UnLoc: 동영상 위치 결정 작업을 위한 통합 프레임워크 | 최신 연구 논문 | HyperAI초신경