Command Palette
Search for a command to run...
Yanzuo Lu Xin Xia Manlin Zhang Huafeng Kuang Jianbin Zheng Yuxi Ren Xuefeng Xiao

要約
統合型マルチモーダルモデルは、多様なコンテンツを統合的に理解・生成する優れた能力を備えることから、近年注目を集めている。しかし、文脈に次第に多数の混在するマルチモーダルトークンが含まれるようになると、拡散ノイズ除去(diffusion denoising)と自己回帰的デコード(autoregressive decoding)の反復処理が著しい計算負荷を生じる。これを解決するため、本研究ではマルチモーダル理解と生成の両タスクを同時に高速化する統合型加速フレームワーク「Hyper-Bagel」を提案する。本アプローチは、分割統治戦略を採用し、次トークン予測には予測的デコード(speculative decoding)を、拡散ノイズ除去には多段階の知識蒸留(multi-stage distillation)を活用する。このフレームワークにより、マルチモーダル理解タスクにおいて2倍以上の高速化を達成した。生成タスクにおいては、元モデルの高品質出力を損なわずに、損失なしの6-NFE(6回のノイズ除去ステップ)モデルにより、テキストから画像生成では16.67倍、画像編集では22倍の高速化を実現した。さらに、極めて効率的な1-NFEモデルも開発し、ほぼリアルタイムでのインタラクティブな編集と生成を可能にした。アドバーシャル蒸留と人間のフィードバック学習を高度に統合することで、本モデルは極めて高いコスト効率と応答性を実現し、複雑なマルチモーダルインタラクションをスムーズかつ瞬時に実現可能にした。