2달 전

VicTR: 동영상 조건부 텍스트 표현을 이용한 활동 인식

Kumara Kahatapitiya; Anurag Arnab; Arsha Nagrani; Michael S. Ryoo
VicTR: 동영상 조건부 텍스트 표현을 이용한 활동 인식
초록

비전-언어 모델(VLMs)은 방대한 사전 학습 데이터(즉, 이미지-텍스트 쌍 샘플)의 활용 덕분에 이미지 영역에서 특히 제로샷 설정에서 뛰어난 성능을 보여주었습니다. 그러나 비디오에 대한 이러한 쌍 데이터는 그렇게 풍부하지 않습니다. 따라서 비디오-VLMs는 처음부터 학습하는 대신 사전 학습된 이미지-VLMs를 비디오 영역으로 적응시키는 방식으로 주로 설계됩니다. 이러한 모든 방법론은 시각적 임베딩에 시간 정보(즉, 이미지 $\rightarrow$ 비디오)를 추가하는 것에 의존하며, 종종 텍스트 임베딩은 변경되지 않거나 심지어 버려집니다. 본 논문에서는 이와 반대로, 더 나은 비디오-VLMs를 설계하기 위해서는 시각적 정보보다 텍스트 정보를 확장하는 데 더 집중해야 한다고 주장합니다. 구체적으로, 우리는 비디오 조건부 텍스트 표현(VicTR: Video-conditioned Text Representations)을 소개합니다. VicTR은 시각적 임베딩에 대해 최적화된 형태의 텍스트 임베딩으로, 더 유연한 대조 잠재 공간을 생성합니다. 우리의 모델은 또한 자유롭게 사용할 수 있는 의미 정보(예: 객체 또는 장면 정보 등 시각적으로 근거한 보조 텍스트)를 활용할 수 있습니다. 우리는 몇 가지 샷(few-shot), 제로샷(HMDB-51, UCF-101), 단편(short-form)(Kinetics-400), 장편(long-form)(Charades) 활동 인식 벤치마크에서 모델을 평가하였으며, 비디오-VLMs 중 강력한 성능을 보였습니다.

VicTR: 동영상 조건부 텍스트 표현을 이용한 활동 인식 | 최신 연구 논문 | HyperAI초신경