2달 전

MiniGPT4-Video: 시각-텍스트 토큰을 활용한 비디오 이해를 위한 다중 모달 LLM의 발전

Kirolos Ataallah; Xiaoqian Shen; Eslam Abdelrahman; Essam Sleiman; Deyao Zhu; Jian Ding; Mohamed Elhoseiny
MiniGPT4-Video: 시각-텍스트 토큰을 활용한 비디오 이해를 위한 다중 모달 LLM의 발전
초록

이 논문은 비디오 이해를 위해 특별히 설계된 다중모달 대형 언어 모델(Large Language Model, LLM)인 MiniGPT4-Video를 소개합니다. 이 모델은 시간적 시각 정보와 텍스트 데이터를 처리할 수 있어, 비디오의 복잡성을 이해하는 데 능숙합니다. MiniGPT-v2가 단일 이미지를 LLM 공간으로 번역하는 데 뛰어나며 다양한 이미지-텍스트 벤치마크에서 인상적인 성과를 거둔 것을 바탕으로, 이 논문은 모델의 기능을 프레임 시퀀스 처리로 확장하여 비디오 이해를 가능하게 합니다. MiniGPT4-Video는 시각적 콘텐츠뿐만 아니라 텍스트 대화도 통합하여, 시각적 요소와 텍스트 요소가 모두 포함된 질의에 효과적으로 답변할 수 있습니다. 제안된 모델은 MSVD, MSRVTT, TGIF, TVQA 벤치마크에서 각각 4.22%, 1.13%, 20.82%, 13.1%의 성능 개선을 보여 기존 최신 방법들을 능가합니다. 우리의 모델과 코드는 공개적으로 이용 가능하며, 다음 링크에서 확인할 수 있습니다: https://vision-cair.github.io/MiniGPT4-video/

MiniGPT4-Video: 시각-텍스트 토큰을 활용한 비디오 이해를 위한 다중 모달 LLM의 발전 | 최신 연구 논문 | HyperAI초신경