OST: 일반 비디오 인식을 위한 최적의 시공간 설명자로 텍스트 지식 정제

비전-언어 모델을 대규모 비디오 데이터로 훈련시키는 데 필요한 자원이 많기 때문에, 대부분의 연구는 사전 훈련된 이미지-언어 모델을 비디오 영역으로 적응시키는 데 초점을 맞추고 있습니다. 주요 파이프라인들은 시각적 차이를 해결하기 위해 추가적인 시간적 학습자를 도입하는 것을 제안하지만, 웹 규모의 설명적 서사와 간결한 행동 범주 이름 사이의 상당한 차이는 간과되고 있어, 이로 인해 의미 공간이 덜 구분되고 성능에 한계가 있을 수 있습니다. 본 연구에서는 일반화 가능한 비디오 인식을 촉진하기 위해 텍스트 지식의 정교화를 우선적으로 고려하였습니다. 범주 이름의 덜 구분되는 의미 공간 문제를 해결하기 위해, 우리는 대형 언어 모델(Large Language Model, LLM)을 활용하여 행동 클래스 이름을 시공간 디스크립터(Spatio-Temporal Descriptors)로 확장함으로써 텍스트 차이를 연결하고 일반 인식을 위한 지식 기반을 제공합니다. 또한, 다양한 비디오 인스턴스에 가장 적합한 디스크립터를 할당하기 위해, 프레임 수준 표현과 디스크립터 간의 최적 매칭 흐름을 해결하는 문제로 비디오 인식 문제를 구성하는 최적 디스크립터 솔버(Optimal Descriptor Solver)를 제안합니다. 제로샷, 소수 샷(few-shot), 완전 감독(Fully Supervised) 비디오 인식에서 수행된 포괄적인 평가는 우리 접근 방식의 효과성을 강조합니다. 우리의 최고 모델은 Kinetics-600에서 75.1%의 최신 제로샷 정확도(state-of-the-art zero-shot accuracy)를 달성하였습니다.