2ヶ月前

拡散モデル

テキストから画像生成

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Han Lin Xichen Pan Ziqi Huang Ji Hou Jialiang Wang Weifeng Chen Zecheng He Felix Juefei-Xu Junzhe Sun Zhipeng Fan

概要

マルチモーダル学習は、強力な大規模言語モデル（LLM）を認知的コアとして用いるマルチモーダル大規模言語モデル（MLLM）の発展により、視覚理解の分野で急速な進展を遂げてきた。しかし、視覚生成の分野では、こうした強力なコアモデルが通常、拡散モデル（diffusion models）のグローバルなテキストエンコーダーとしてのみ利用され、その推論能力や計画能力の大部分が無駄にされている。この結果、現在のマルチモーダルLLMは複雑なレイアウトや属性、知識集約型のシーンを正確に解析できるものの、同等の精度と構造的制御を伴う画像や動画の生成には苦戦しているというギャップが生じている。本研究では、MLLMが空間的および時空間的潜在空間（latent space）において直接推論・計画を行うことを可能にする軽量なフレームワーク「MetaCanvas」を提案する。MetaCanvasは、拡散生成器と密接に連携する設計となっており、3種類の異なる拡散バックボーン上で実装し、テキストから画像生成、テキスト／画像から動画生成、画像／動画編集、コンテキスト内動画生成を含む6つのタスクにおいて評価を行った。これらのタスクはいずれも正確なレイアウト、堅牢な属性結合、高度な推論を要する制御を必要とする。実験の結果、MetaCanvasはグローバル条件付けベースラインを一貫して上回り、MLLMを潜在空間における計画者として活用することが、マルチモーダル理解と生成の間のギャップを縮小する有望なアプローチであることを示唆している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

2ヶ月前

拡散モデル

テキストから画像生成

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Han Lin Xichen Pan Ziqi Huang Ji Hou Jialiang Wang Weifeng Chen Zecheng He Felix Juefei-Xu Junzhe Sun Zhipeng Fan

概要

マルチモーダル学習は、強力な大規模言語モデル（LLM）を認知的コアとして用いるマルチモーダル大規模言語モデル（MLLM）の発展により、視覚理解の分野で急速な進展を遂げてきた。しかし、視覚生成の分野では、こうした強力なコアモデルが通常、拡散モデル（diffusion models）のグローバルなテキストエンコーダーとしてのみ利用され、その推論能力や計画能力の大部分が無駄にされている。この結果、現在のマルチモーダルLLMは複雑なレイアウトや属性、知識集約型のシーンを正確に解析できるものの、同等の精度と構造的制御を伴う画像や動画の生成には苦戦しているというギャップが生じている。本研究では、MLLMが空間的および時空間的潜在空間（latent space）において直接推論・計画を行うことを可能にする軽量なフレームワーク「MetaCanvas」を提案する。MetaCanvasは、拡散生成器と密接に連携する設計となっており、3種類の異なる拡散バックボーン上で実装し、テキストから画像生成、テキスト／画像から動画生成、画像／動画編集、コンテキスト内動画生成を含む6つのタスクにおいて評価を行った。これらのタスクはいずれも正確なレイアウト、堅牢な属性結合、高度な推論を要する制御を必要とする。実験の結果、MetaCanvasはグローバル条件付けベースラインを一貫して上回り、MLLMを潜在空間における計画者として活用することが、マルチモーダル理解と生成の間のギャップを縮小する有望なアプローチであることを示唆している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

MetaCanvasを用いたMLLM-Diffusion間情報伝達の探求 | 記事 | HyperAI超神経