Vamos: 다양한 동작 모델을 활용한 비디오 이해

비디오 이해를 위한 좋은 표현은 무엇인가요? 예를 들어 미래 활동을 예측하거나 비디오 조건부 질문에 답하는 것 등이 있습니다. 이전 접근 방식들은 비디오 픽셀에서 직접 끝까지 학습(end-to-end learning)하는 데 초점을 맞추었지만, 우리는 일반적인 목적의 비디오 캡션과 같은 텍스트 기반 표현을 재검토할 것을 제안합니다. 이러한 표현은 해석 가능하며 대형 언어 모델(Large Language Models, LLMs)에서 직접 사용할 수 있습니다. 직관적으로, 다양한 비디오 이해 작업은 서로 보완적이며 다른 세분화도(granularity)를 가진 표현이 필요할 수 있습니다. 이를 위해 우리는 대형 언어 모델을 '논리 추론자(reasoner)'로 활용하는 다목적 행동 모델(Versatile Action Models, Vamos)이라는 학습 프레임워크를 제안합니다. 이 프레임워크는 시각적 임베딩과 자유 형식의 텍스트 설명을 유연하게 입력으로 사용할 수 있습니다.질문 응답을 위한 중요한 텍스트 증거를 해석하기 위해, 우리는 토큰과 비선형 모델과 함께 작동하도록 개념 병목 모델(Concept Bottleneck Model)을 일반화하였습니다. 이 모델은 자유 형식의 텍스트에서 작은 부분 집합의 토큰을 선택하여 LLM 논리 추론자의 입력으로 사용하기 위해 하드 어텐션(hard attention)을 활용합니다. 우리는 Vamos의 시간 동역학(temporal dynamics) 모델링 능력, 시각적 역사 인코딩 능력, 그리고 추론 수행 능력을 평가하기 위해 Ego4D, NeXT-QA, IntentQA, Spacewalk-18, EgoSchema 등 5개의 보완적인 벤치마크에서 성능을 평가하였습니다.놀랍게도, 모든 벤치마크에서 텍스트 기반 표현이 일관되게 경쟁력 있는 성능을 보였으며, 시각적 임베딩은 성능 개선에 미미한 영향이나 전혀 영향을 주지 않는 것으로 나타났습니다. 이는 LLM 시대에 텍스트 기반 비디오 표현의 효과성을 입증합니다. 또한 우리의 토큰 병목 모델이 자유 형식의 텍스트에서 관련 증거를 선택하고, 테스트 시간 중 개입(test-time intervention)을 지원하며 거의 5배나 추론 속도가 빨라지는同时保持了有竞争力的问题回答性能。为了确保表述正式,我将最后一句重新翻译如下:또한 우리의 토큰 병목 모델이 자유 형식의 텍스트에서 관련 증거를 선택하고, 테스트 시간 중 개입을 지원하며 거의 5배나 추론 속도를 높일 수 있으면서도 경쟁력 있는 질문 응답 성능을 유지함을 확인하였습니다.코드와 모델은 공개적으로 제공되며 다음 링크에서 확인하실 수 있습니다: https://brown-palm.github.io/Vamos/