Command Palette
Search for a command to run...

초록
시각 토큰은 다중 모달 대규모 모델(Multi-modal Large Models, MLLMs)에서 상당한 계산 자원을 소비하여 효율성에 심각한 영향을 미친다. 최근 연구들은 학습 과정에서 시각 토큰을 압축함으로써 효율성을 향상시키려는 시도를 하였으며, 모델 구성 요소를 수정하거나 추가 파라미터를 도입하는 방식으로 접근하였다. 그러나 이러한 압축으로 인해 발생하는 특성 공간 내의 극심한 변형(퍼터베이션)에 따라 모델의 파라미터 공간이 빠르게 적응하기 어려워지는 학습 난이도 증가 문제를 종종 간과하고 있다. 본 연구에서는 ‘진행형 일관성 교사법(Progressive Consistency Distillation, EPIC)’이라는 진행형 학습 프레임워크를 제안하여 효율적인 MLLMs 개발을 목표로 한다. 구체적으로, 토큰 단위 및 계층 단위 차원에서 토큰 압축으로 인한 특성 공간의 변형을 분해함으로써, 각각 토큰 일관성 교사법(token consistency distillation)과 계층 일관성 교사법(layer consistency distillation)을 도입하여, 교사 모델의 안내를 활용하고 진행형 학습 경로를 따름으로써 학습 난이도를 감소시키는 것을 목표로 한다. 광범위한 실험을 통해 제안하는 프레임워크가 우수한 효과성, 강건성 및 일반화 능력을 보임을 입증하였다.