7일 전

비디오-언어 이해에서의 '비디오' 재고찰

Shyamal Buch, Cristóbal Eyzaguirre, Adrien Gaidon, Jiajun Wu, Li Fei-Fei, Juan Carlos Niebles
비디오-언어 이해에서의 '비디오' 재고찰
초록

단일 이미지로부터 이해할 수 있는 내용을 넘어서, 비디오 작업이 비디오에 특별히 적합한 이유는 무엇인가? 최근 자기지도 이미지-언어 모델의 발전을 바탕으로, 우리는 비디오와 언어 작업의 맥락에서 이 질문을 재검토한다. 우리는 시공간적 특성을 무시하는 새로운 모델인 '비시공간 탐사기'(Atemporal Probe, ATP)를 제안한다. 이 모델은 이미지 수준의 이해에 제약을 받는 다중모달 모델의 기준 정확도에 대해 더 강한 하한선을 제공한다. 표준적인 분류형 비디오-언어 작업(예: 비디오 질의 응답, 텍스트-비디오 검색)에 이 모델을 적용함으로써, 현재 비디오-언어 벤치마크의 한계와 잠재력을 규명한다. 그 결과, 이벤트의 시계적 흐름을 이해하는 것이 강력하거나 최첨단 성능을 달성하는 데 반드시 필요하지 않음을 확인했다. 이는 최근 대규모 비디오-언어 모델과, 더 깊은 비디오 수준 이해를 평가하기 위해 의도된 맥락에서도 마찬가지였다. 또한 ATP가 비디오-언어 데이터셋 및 모델 설계를 개선하는 데 어떻게 활용될 수 있는지 보여준다. ATP를 활용해 시계적 어려움이 더 높은 데이터 하위집합을 보다 효과적으로 분리하는 기술을 제시함으로써, 인과적 및 시계적 이해를 평가하는 벤치마크의 효율성을 높일 수 있다. 더 나아가, ATP를 전체 비디오 수준 시계적 모델에 효과적으로 통합하면, 계산 효율성과 최첨단 정확도 모두를 향상시킬 수 있음을 보여준다.

비디오-언어 이해에서의 '비디오' 재고찰 | 최신 연구 논문 | HyperAI초신경