Command Palette
Search for a command to run...

要約
マルチモーダル大規模モデル(MLLMs)において、視覚トークンは膨大な計算リソースを消費し、モデルの効率性を著しく低下させる要因となっている。近年の研究では、学習中に視覚トークンを圧縮することで効率性を向上させる試みがなされてきた。これはモデル構成の変更や追加パラメータの導入を通じて実現されている。しかしながら、こうした圧縮によって引き起こされる特徴空間における大きな摂動により、モデルのパラメータ空間が迅速に適応できず、学習の難易度が上昇する点を無視しがちである。本研究では、段階的整合性蒸留(Progressive Consistency Distillation, EPIC)を用いた効率的なMLLMの構築を提案する。具体的には、トークン単位およびレイヤー単位の両次元に沿って、トークン圧縮によって生じる特徴空間の摂動を分解し、それぞれに対し、トークン整合性蒸留およびレイヤー整合性蒸留を導入することで、教師モデルからの指導を活用し、段階的な学習プロセスを踏むことで学習の難易度を低減することを目的とする。広範な実験により、本研究で提案するフレームワークが優れた効果、高いロバスト性および汎化能力を有していることが示された。