Command Palette
Search for a command to run...
再構成アライメントが統合型マルチモーダルモデルを改善する
再構成アライメントが統合型マルチモーダルモデルを改善する
Ji Xie Trevor Darrell Luke Zettlemoyer XuDong Wang
概要
統合型マルチモーダルモデル(UMMs)は、単一のアーキテクチャ内に視覚的理解と生成を統合する。しかし、従来の学習手法は、画像とテキストのペア(またはシーケンス)に依存しており、そのキャプションは通常、細かい視覚的詳細を欠いたものとなっている——たとえ単純な画像を数百語で記述してもなお同様である。本研究では、視覚的理解エンコーダの埋め込みを高密度な「テキストプロンプト」として活用することで、キャプションなしで豊かな教師信号を提供する、リソース効率の高い後学習手法「再構成整合(RecA)」を提案する。具体的には、RecAはUMMに自身の視覚的理解埋め込みを条件として与え、自己教師学習的な再構成損失に基づいて入力画像の再構成を最適化することで、理解と生成の整合性を再調整する。この手法は単純であるが、広範な適用性を有する:自己回帰型、マスク付き自己回帰型、および拡散モデルに基づくUMMのすべてにおいて、生成品質および編集の忠実度が一貫して向上する。わずか27 GPU時間の後学習で、RecAを用いることでGenEval(0.73 → 0.90)およびDPGBench(80.93 → 88.15)における画像生成性能が著しく向上し、編集ベンチマーク(ImgEdit 3.38 → 3.75、GEdit 6.94 → 7.25)においても効果が確認された。特に注目すべきは、RecAがはるかに大きなオープンソースモデルを上回る性能を発揮し、多様なUMMアーキテクチャに普遍的に適用可能である点であり、UMMにおける効率的かつ汎用的な後学習統合戦略としての可能性を示している。