11일 전

타임 트라이얼: 시간의 감각을 비디오-언어 모델에 심기

Piyush Bagad, Makarand Tapaswi, Cees G. M. Snoek
타임 트라이얼: 시간의 감각을 비디오-언어 모델에 심기
초록

현대 비디오 이해 모델에서 시간에 대한 모델링과 이해는 여전히 도전 과제로 남아 있다. 언어가 강력한 일반화를 가능하게 하는 핵심 요소로 부상함에 따라, 기초적인 비디오-언어 모델이 시간에 대한 인식을 가져야 하는 것은 필수적이다. 본 논문에서는 시간 이해의 특정 측면—즉, ‘전후(전/후) 관계’를 통해 드러나는 시간 순서의 일관성—을 고려한다. 우리는 기존의 7개의 비디오-언어 모델이 이러한 간단한 시간 관계조차 이해하는 데 어려움을 겪고 있음을 확인한다. 이에 따라, 이러한 기초 모델들을 다시 처음부터 재학습하지 않고도 시간 인식 능력을 부여하는 것이 가능한지에 대해 질문한다. 이를 위해, 소량의 비디오-텍스트 데이터를 활용한 후학습(post-pretraining) 기반의 시간 적응 방법을 제안하며, 이는 VideoCLIP 모델을 기반으로 한다. 제안된 방법을 통해 얻어진 적응 모델들을, 시간 인식 수준이 다른 세 가지 하류 작업을 수행하는 데 있어 여섯 개의 데이터셋에서 제로샷(zero-shot) 평가를 실시하였다. 그 결과, 시간 인식이 더 중요한 작업에서 특히 유의미한 성능 향상이 관찰되었다. 본 연구는 기존의 비디오-언어 모델에 시간 인식 능력을 탐색하고 부여하는 데 있어, 처음부터 데이터와 계산 자원을 집약적으로 사용하는 재학습 없이도 가능함을 보여주는 첫걸음이 된다.

타임 트라이얼: 시간의 감각을 비디오-언어 모델에 심기 | 최신 연구 논문 | HyperAI초신경