10일 전

IntentQA: 맥락 인지형 비디오 의도 추론

{Lifeng Fan, Wenjuan Han, Ping Wei, Jiapeng Li}
IntentQA: 맥락 인지형 비디오 의도 추론
초록

본 논문에서는 일상적인 과제에서 단순 인식을 넘어서는 사고 능력을 AI 에이전트에 부여할 수 있는 장점으로 인해 점점 더 중요한 역할을 하고 있는, 비디오 의도 추론에 초점을 맞춘 특수한 VideoQA 작업인 IntentQA라는 새로운 작업을 제안한다. 또한 본 작업을 위한 대규모 VideoQA 데이터셋을 공개한다. 제안하는 Context-aware Video Intent Reasoning 모델(CaVIR)은 i) 상황적 맥락의 더 나은 다중모달 표현을 위한 Video Query Language(VQL), ii) 대조적 맥락을 활용하기 위한 대조 학습 모듈, iii) 보편적 지식적 맥락을 통합하기 위한 보편 지식 추론 모듈로 구성되어 있다. 본 도전적인 작업에 대한 종합적인 실험을 통해 각 모델 구성 요소의 효과성, 타 모델 대비 본 모델의 우수성, 그리고 새로운 VideoQA 작업에 대한 모델의 일반화 능력을 입증하였다. 본 연구에서 개발한 데이터셋과 코드는 다음과 같은 주소에서 오픈소스로 공개된다: https://github.com/JoseponLee/IntentQA.git

IntentQA: 맥락 인지형 비디오 의도 추론 | 최신 연구 논문 | HyperAI초신경