대규모 언어 모델은 비디오 질의 응답을 위한 시계적 및 인과적 추론 기능을 갖춘 모델이다.

대규모 언어 모델(Large Language Models, LLMs)은 자연어 이해 및 생성 다양한 작업에서 뛰어난 성능을 보여왔다. 우리는 LLMs가 비디오 질의 응답(Video Question Answering, VideoQA)에서 시제적 및 인과적 추론을 위해 언어적 단순화 전략(linguistic shortcuts)을 효과적으로 활용하는 유용한 사전 지식(prior)을 제공함을 관찰하였다. 그러나 이러한 사전 지식은 모델이 질문에 과도하게 의존하게 만들며, 시각적 콘텐츠를 무시하게 되어 종종 비디오 질의 응답에서 최적의 결과를 도출하지 못하게 한다. 이를 ‘언어적 편향(linguistic bias)’이라 하며, 이는 결과적으로 ‘근거 없는 추측(ungrounded guesses)’ 또는 ‘환각(hallucinations)’을 초래한다. 이러한 문제를 해결하면서도 LLMs의 사전 지식을 효과적으로 활용하기 위해, 우리는 새로운 프레임워크인 Flipped-VQA를 제안한다. 이 프레임워크는 질문-비디오(VQ), 비디오-응답(VA), 질문-응답(QA) 쌍을 각각 입력으로 받아, $\langle$V, Q, A$\rangle$ 삼중조의 모든 조합을 예측하도록 모델을 유도함으로써, 이들 간의 복잡한 관계를 보다 깊이 이해하도록 한다. 즉, 주어진 VQ, VA, QA 쌍에 대해 각각 A, Q, V를 예측하게 하는 방식이다. 본 연구에서는 LLaMA에 Flipped-VQA를 적용하여 LLaMA-VQA를 개발하였으며, 이는 다섯 가지 도전적인 VideoQA 벤치마크에서 기존의 LLM 기반 및 비-LLM 기반 모델들을 모두 능가하는 성능을 보였다. 더불어, Flipped-VQA는 다양한 LLMs(OPT 및 GPT-J 등)에 적용 가능한 일반적인 프레임워크이며, 일관되게 성능을 향상시킨다. 실증적으로, Flipped-VQA는 언어적 단순화 전략을 더욱 효과적으로 활용할 뿐만 아니라, 질문에 과도하게 의존하는 언어적 편향을 완화함으로써 잘못된 응답을 줄이는 데 기여함을 입증하였다. 코드는 https://github.com/mlvlab/Flipped-VQA 에서 공개되어 있다.