Vista-LLaMA: 시각적 토큰과의 등거리 원칙을 통한 비디오 언어 모델의 환상 감소

최근 대규모 비디오-언어 모델의 발전은 비디오 이해 측면에서 희망적인 성과를 보여주고 있다. 기존의 접근 방식은 비디오를 단순히 언어 토큰으로 변환한 후 대규모 언어 모델을 활용하여 다중 모달 작업을 수행하는 방식이다. 그러나 이 방법은 텍스트 길이가 길어질수록 비디오의 영향력이 약화되면서 관련 없는 내용을 생성하는 현상, 즉 일반적으로 '환각(Hallucination)'이라고 알려진 문제를 유발하는 경향이 있다. 이러한 문제를 해결하기 위해, 본 연구는 생성된 텍스트 길이에 관계없이 모든 시각적 토큰과 언어 토큰 간의 거리가 일정하게 유지되는 새로운 프레임워크인 Vista-LLaMA를 제안한다. Vista-LLaMA는 시각적 토큰과 텍스트 토큰 간의 어텐션 가중치를 계산할 때 상대적 위치 인코딩을 생략함으로써, 텍스트 토큰과 텍스트의 위치 인코딩은 유지한다. 이를 통해 특히 시각적 토큰과 텍스트 토큰 간의 상대적 거리가 길어질 경우에도 시각적 토큰이 텍스트 생성에 미치는 영향을 강화할 수 있다. 제안된 어텐션 메커니즘은 비디오 내용과 관련 없는 텍스트 생성 가능성을 크게 감소시킨다. 더불어, 이전 프레임을 기반으로 현재 비디오 프레임을 언어 공간의 토큰으로 매핑하는 순차적 시각 프로젝터(sequential visual projector)를 제안한다. 이 방법은 비디오 내 시간적 관계를 효과적으로 포착할 뿐만 아니라, 전체 비디오를 더 적은 수의 시각적 토큰으로 포괄할 수 있도록 한다. 제안한 방법은 네 가지 도전적인 오픈엔드 비디오 질의응답 벤치마크에서 기존 다양한 방법들(예: Video-ChatGPT, MovieChat)을 크게 능가한다. 특히 제로샷 NExT-QA에서 60.7의 정확도, 제로샷 MSRVTT-QA에서 60.5의 정확도를 달성하며, 새로운 최고 성능(SOTA)을 기록하였다. 본 연구 프로젝트는 https://jinxxian.github.io/Vista-LLaMA 에서 공개되어 있다.