18일 전
GenRecal: 대형에서 소형 비전-언어 모델로의 재교정 후 생성
Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu

초록
최근 시각-언어 모델(Vision-Language Models, VLMs)의 발전은 대형 언어 모델(Large Language Models, LLMs)을 활용하여 GPT-4V와 같은 폐소스 시스템과 비슷한 성능을 달성하였습니다. 그러나 이러한 모델들을 실제 환경에서, 특히 자원 제약이 있는 장치에서 배포하는 것은 여전히 어려움이 따르는데, 이는 그들의 상당한 계산 요구 사항 때문입니다. 이로 인해 대형 VLM들로부터 지식을 추출하여 더 작고 효율적인 모델로 전달하는 것에 대한 관심이 증가하고 있습니다. 여기서 주요 과제는 다양한 VLM 아키텍처가 서로 다른 LLMs 위에 구축되어 있으며, 어휘 크기, 토큰 분할, 토큰 인덱스 순서 등에서 차이를 보이는 다양한 토큰 유형을 사용한다는 점에서 발생합니다. 이러한 특정 VLM 유형에 대한 제한 문제를 해결하기 위해, 우리는 새로운 일반 목적 지식 추출 프레임워크인 재교정 후 생성(Generation after Recalibration, GenRecal)을 제시합니다. GenRecal은 이질적인 VLM들 간의 특징 표현을 정렬하고 적응시키는 재교정기(Recalibrator)를 포함하여, 서로 다른 종류의 VLM들 간에 효과적인 지식 전달을 가능하게 합니다. 다수의 도전적인 벤치마크를 통한 광범위한 실험을 통해 우리는 GenRecal이 기준 성능을 크게 개선하며, 결국 대규모 오픈 소스 및 폐소스 VLM들을 능가함을 입증하였습니다.