2달 전

Videoprompter: 영상 이해를 위한 제로샷 기초 모델들의 앙상블

Adeel Yousaf; Muzammal Naseer; Salman Khan; Fahad Shahbaz Khan; Mubarak Shah
Videoprompter: 영상 이해를 위한 제로샷 기초 모델들의 앙상블
초록

비전-언어 모델(VLMs)은 시각적 특징과 텍스트 기반 클래스 라벨 표현 사이의 유사성 점수를 계산하여 쿼리 비디오를 분류합니다. 최근에는 대형 언어 모델(LLMs)이 클래스 이름의 설명력을 강화하여 텍스트 기반 클래스 라벨을 풍부하게 만드는 데 사용되었습니다. 그러나 이러한 개선은 텍스트 기반 분류기에만 제한되며, 쿼리 시각적 특징은 고려되지 않습니다. 본 논문에서는 사전 학습된 판별적 VLMs와 사전 학습된 생성적 비디오-텍스트 및 텍스트-텍스트 모델을 결합하는 프레임워크를 제안합니다. 우리는 표준 제로샷 설정에 두 가지 주요 수정을 도입합니다.첫째, 언어 안내형 시각적 특징 강화를 제안하며, 쿼리 비디오를 그 설명적인 형태로 변환하기 위해 비디오-텍스트 모델을 활용합니다. 이로 인해 생성된 설명은 쿼리 비디오에 존재하는 객체와 그들의 공간-시간 상호작용 등 중요한 시각적 단서를 포함하게 됩니다. 이러한 설명적인 단서들은 VLMs에게 추가적인 의미론적 지식을 제공하여 제로샷 성능을 강화합니다.둘째, LLMs에 대한 비디오 특정 프롬프트를 제안하여 클래스 라벨 표현을 더욱 의미 있게 만드는 설명을 생성합니다. 특히, 프롬프트 기법을 사용하여 클래스 이름에 대한 범주 트리 계층 구조(Tree Hierarchy of Categories)를 만들고, 추가적인 시각적 단서를 위한 고차원 행동 맥락을 제공합니다.우리는 세 가지 다른 제로샷 설정에서 비디오 이해의 효과성을 입증하였습니다: 1) 비디오 행동 인식, 2) 비디오-텍스트 및 텍스트-비디오 검색, 3) 시간 감응형 비디오 작업입니다. 여러 벤치마크와 다양한 VLMs에서 일관된 개선이 이루어짐으로써 우리의 제안된 프레임워크의 효과성이 입증되었습니다. 우리의 코드는 공개적으로 제공될 예정입니다.

Videoprompter: 영상 이해를 위한 제로샷 기초 모델들의 앙상블 | 최신 연구 논문 | HyperAI초신경