1ヶ月前

プログレッシブ一貫性蒸留を用いた効率的なマルチモーダル大規模言語モデル

Zichen Wen Shaobo Wang Yufa Zhou Junyuan Zhang Qintong Zhang Yifeng Gao Zhaorun Chen Bin Wang Weijia Li Conghui He

要約

マルチモーダル大規模モデル（MLLMs）において、視覚トークンは膨大な計算リソースを消費し、モデルの効率性を著しく低下させる要因となっている。近年の研究では、学習中に視覚トークンを圧縮することで効率性を向上させる試みがなされてきた。これはモデル構成の変更や追加パラメータの導入を通じて実現されている。しかしながら、こうした圧縮によって引き起こされる特徴空間における大きな摂動により、モデルのパラメータ空間が迅速に適応できず、学習の難易度が上昇する点を無視しがちである。本研究では、段階的整合性蒸留（Progressive Consistency Distillation, EPIC）を用いた効率的なMLLMの構築を提案する。具体的には、トークン単位およびレイヤー単位の両次元に沿って、トークン圧縮によって生じる特徴空間の摂動を分解し、それぞれに対し、トークン整合性蒸留およびレイヤー整合性蒸留を導入することで、教師モデルからの指導を活用し、段階的な学習プロセスを踏むことで学習の難易度を低減することを目的とする。広範な実験により、本研究で提案するフレームワークが優れた効果、高いロバスト性および汎化能力を有していることが示された。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

プログレッシブ一貫性蒸留を用いた効率的なマルチモーダル大規模言語モデル

Zichen Wen Shaobo Wang Yufa Zhou Junyuan Zhang Qintong Zhang Yifeng Gao Zhaorun Chen Bin Wang Weijia Li Conghui He1 more

要約

AI で AI を構築

Hyper Newsletters

Zichen Wen Shaobo Wang Yufa Zhou Junyuan Zhang Qintong Zhang Yifeng Gao Zhaorun Chen Bin Wang Weijia Li Conghui He