2달 전

$R^2$-튜닝: 비디오 시점 정지에 대한 효율적인 이미지-비디오 전이 학습

Liu, Ye ; He, Jixuan ; Li, Wanhua ; Kim, Junsik ; Wei, Donglai ; Pfister, Hanspeter ; Chen, Chang Wen
$R^2$-튜닝: 비디오 시점 정지에 대한 효율적인 이미지-비디오 전이 학습
초록

비디오 시간적 정착(VTG)은 자연어 쿼리를 주어졌을 때 편집되지 않은 비디오에서 관련 클립을 정확히 위치시키는 세밀한 비디오 이해 문제입니다. 기존의 대부분 VTG 모델들은 추가적인 시간적 백본(예: SlowFast)과 복잡한 시간적 추론 메커니즘을 활용하여 프레임 단위의 최종 레이어 CLIP 특징들 위에 구축되어 있습니다. 본 연구에서는 각 레이어가 다른 세부 수준에서 고유하면서도 유용한 정보를 제공하기 때문에 CLIP 자체가 이미 세밀한 공간-시간 모델링에 큰 잠재력을 보여준다고 주장합니다. 이러한 동기에서, 우리는 파라미터와 메모리 효율성이 뛰어난 비디오 시간적 정착을 위한 전이 학습 프레임워크인 역행 재귀 튜닝($R^2$-튜닝)을 제안합니다. 우리의 방법은 전체 파라미터의 1.5%만으로 구성된 경량화된 $R^2$ 블록을 학습하여 점진적으로 공간-시간 모델링을 수행합니다. CLIP의 마지막 레이어부터 시작하여, $R^2$ 블록은 이전 레이어들의 공간 특징들을 반복적으로 집계하고, 주어진 쿼리에 따라 시간적 상관관계를 개선하여 거칠게부터 세밀하게 접근하는 방식을 취합니다. $R^2$-튜닝은 추가적인 백본 없이도 여섯 개의 공개 벤치마크(QVHighlights, Charades-STA, Ego4D-NLQ, TACoS, YouTube Highlights, TVSum)에서 세 가지 VTG 작업(즉, 순간 검색, 하이라이트 감지, 비디오 요약) 모두에서 최고 수준의 성능을 달성하였습니다. 이는 제안된 방식의 중요성과 효과성을 입증합니다. 우리의 코드는 https://github.com/yeliudev/R2-Tuning 에서 확인할 수 있습니다.

$R^2$-튜닝: 비디오 시점 정지에 대한 효율적인 이미지-비디오 전이 학습 | 최신 연구 논문 | HyperAI초신경