LLaVA-Mini: 하나의 비전 토큰으로 효율적인 이미지 및 비디오 대형 다중 모달 모델

GPT-4o와 같은 실시간 대형 다중모달 모델(LMM)의 등장은 효율적인 LMM에 대한 큰 관심을 불러일으켰습니다. 일반적으로 LMM 프레임워크는 시각적 입력을 비전 토큰(연속적 표현)으로 인코딩하고, 이를 대형 언어 모델(LLM)의 문맥과 텍스트 지시문과 통합합니다. 이때 대규모 매개변수와 많은 문맥 토큰(주로 비전 토큰)이 상당한 계산 부담을 초래합니다. 효율적인 LMM 개발에 대한 이전 연구들은 항상 LLM 백본을 더 작은 모델로 교체하는 데 집중했지만, 토큰 수량이라는 중요한 문제를 간과했습니다.본 논문에서는 최소한의 비전 토큰을 사용하는 효율적인 LMM인 LLaVA-Mini를 소개합니다. 비전 토큰의 고도화된 압축비를 달성하면서 시각 정보를 유지하기 위해, 먼저 LMM이 비전 토큰을 이해하는 방식을 분석하고, 대부분의 비전 토큰이 주로 초기 층에서 시각 정보를 텍스트 토큰으로 융합하는 역할을 한다는 것을 발견했습니다. 이 결과를 바탕으로, LLaVA-Mini는 사전 융합(pre-fusion) 기법을 도입하여 비전 정보를 미리 텍스트 토큰으로 융합함으로써, LLM 백본에 제공되는 비전 토큰을 하나의 토큰으로 극단적으로 압축할 수 있도록 설계되었습니다.LLaVA-Mini는 이미지, 고해상도 이미지, 동영상 등을 효율적으로 이해할 수 있는 통합된 대형 다중모달 모델입니다. 11개의 이미지 기반 벤치마크와 7개의 동영상 기반 벤치마크에서 수행된 실험들은 LLaVA-Mini가 단 1개의 비전 토큰만 사용하여 576개의 비전 토큰을 사용하는 LLaVA-v1.5보다 우수한 성능을 보여주었습니다. 효율성 분석 결과, LLaVA-Mini는 FLOPs(Floating Point Operations Per Second)를 77% 감소시키고, 40밀리초 이내로 저지연 응답을 제공하며, 24GB 메모리를 갖춘 GPU 하드웨어에서 10,000프레임 이상의 동영상을 처리할 수 있었습니다.