2달 전

LLaVA-Scissor: 의미 연결 성분을 이용한 토큰 압축 기법으로 비디오 LLM 최적화

Boyuan Sun, Jiaxing Zhao, Xihan Wei, Qibin Hou
LLaVA-Scissor: 의미 연결 성분을 이용한 토큰 압축 기법으로 비디오 LLM 최적화
초록

본 논문에서는 비디오 다중모달 대형 언어 모델을 위한 훈련이 필요하지 않은 토큰 압축 전략인 LLaVA-Scissor를 제시합니다. 기존 방법들은 대부분 주의 점수에 기반하여 토큰을 압축하려고 시도하지만, 모든 의미 영역을 효과적으로 포착하지 못하고 종종 토큰 중복을 초래합니다. 이에 반해, 우리는 토큰 집합 내에서 각각의 의미 영역에 토큰을 할당하여 전체적인 의미 범위를 보장하는 Semantic Connected Components (SCC) 접근법을 활용하는 방안을 제안합니다. 그 결과로 공간적 및 시간적 영역에서 SCC를 모두 활용하는 두 단계의 시공간적 토큰 압축 전략이 도출되었습니다. 이 전략은 비디오 전체를 겹치지 않는 의미 토큰 집합으로 표현함으로써 효과적으로 토큰을 압축할 수 있습니다. 우리는 LLaVA-Scissor의 토큰 압축 능력을 비디오 질문 응답, 장기 비디오 이해, 그리고 포괄적인 다중 선택 벤치마크 등 다양한 비디오 이해 벤치마크에서 폭넓게 평가하였습니다. 실험 결과는 제안된 LLaVA-Scissor가 다른 토큰 압축 방법들보다 우수한 성능을 보이며, 특히 낮은 토큰 유지율에서 다양한 비디오 이해 벤치마크에서 뛰어난 성과를 거두는 것을 확인하였습니다. 프로젝트 페이지: https://github.com/HumanMLLM/LLaVA-Scissor.

LLaVA-Scissor: 의미 연결 성분을 이용한 토큰 압축 기법으로 비디오 LLM 최적화 | 최신 연구 논문 | HyperAI초신경