7일 전

Glance and Focus: 다중 이벤트 비디오 질의응답을 위한 메모리 프롬프팅

Ziyi Bai, Ruiping Wang, Xilin Chen
Glance and Focus: 다중 이벤트 비디오 질의응답을 위한 메모리 프롬프팅
초록

비디오 질의 응답(VideoQA)은 에이전트가 인간의 일상적 행동을 이해하는 능력을 평가하는 데 핵심적인 도구로 부상하고 있다. 최근 대규모 시각언어 모델이 다양한 다중모달 작업에서 성과를 거두었음에도 불구하고, 여러 인간-객체 상호작용 이벤트를 포함하는 복잡한 상황에 대한 비디오 내 추론은 여전히 도전 과제로 남아 있다. 반면 인간은 질문과 관련된 핵심 순간을 신속하게 탐색하기 위해 일련의 에피소드 기억을 기준점으로 활용함으로써 이를 쉽게 해결할 수 있다. 이러한 효과적인 추론 전략을 모방하기 위해 우리는 ‘Glance-Focus’ 모델을 제안한다. 한 가지 간단한 접근은 행동 탐지 모델을 적용하여 키 메모리로 사용할 행동들을 예측하는 것이다. 그러나 이러한 행동들은 제한된 어휘집 내에 존재하므로 다양한 비디오 도메인에 일반화하기 어렵다. 이를 대신하여, 관찰 단계에서 동적 이벤트 메모리를 생성할 수 있도록 인코더-디코더 구조를 학습한다. 특히, 감독 학습 기반 이중 매칭을 통해 이벤트 메모리를 얻는 방법 외에도, 이벤트 레이블에 의존하지 않고도 메모리를 생성할 수 있도록 비지도 메모리 생성 방법을 추가로 설계하였다. 이후 집중 단계에서는 이러한 이벤트 메모리가 질문에 포함된 고수준의 이벤트 개념과 저수준의 긴 비디오 콘텐츠 사이의 상관관계를 연결하는 다리 역할을 한다. 질문이 주어지면, 모델은 먼저 생성된 핵심 이벤트 메모리에 집중한 후, 설계한 다수준 크로스 어텐션 메커니즘을 통해 추론에 가장 관련성이 높은 순간에 초점을 맞춘다. 우리는 STAR, EgoTaskQA, AGQA, NExT-QA를 포함한 네 가지 다이벤트 비디오 QA 벤치마크에서 광범위한 실험을 수행하였으며, 제안하는 모델은 다양한 도전적인 추론 과제에서 현재의 대규모 모델들을 능가하는 최신 기술(SOTA) 성능을 달성하였다. 코드와 모델은 https://github.com/ByZ0e/Glance-Focus 에서 공개되어 있다.

Glance and Focus: 다중 이벤트 비디오 질의응답을 위한 메모리 프롬프팅 | 최신 연구 논문 | HyperAI초신경