
要約
マルチモーダル学習は、強力な大規模言語モデル(LLM)を認知的コアとして用いるマルチモーダル大規模言語モデル(MLLM)の発展により、視覚理解の分野で急速な進展を遂げてきた。しかし、視覚生成の分野では、こうした強力なコアモデルが通常、拡散モデル(diffusion models)のグローバルなテキストエンコーダーとしてのみ利用され、その推論能力や計画能力の大部分が無駄にされている。この結果、現在のマルチモーダルLLMは複雑なレイアウトや属性、知識集約型のシーンを正確に解析できるものの、同等の精度と構造的制御を伴う画像や動画の生成には苦戦しているというギャップが生じている。本研究では、MLLMが空間的および時空間的潜在空間(latent space)において直接推論・計画を行うことを可能にする軽量なフレームワーク「MetaCanvas」を提案する。MetaCanvasは、拡散生成器と密接に連携する設計となっており、3種類の異なる拡散バックボーン上で実装し、テキストから画像生成、テキスト/画像から動画生成、画像/動画編集、コンテキスト内動画生成を含む6つのタスクにおいて評価を行った。これらのタスクはいずれも正確なレイアウト、堅牢な属性結合、高度な推論を要する制御を必要とする。実験の結果、MetaCanvasはグローバル条件付けベースラインを一貫して上回り、MLLMを潜在空間における計画者として活用することが、マルチモーダル理解と生成の間のギャップを縮小する有望なアプローチであることを示唆している。