4ヶ月前

拡散モデル

テキストから画像生成

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Hyunmin Cho Donghoon Ahn Susung Hong Jee Eun Kim Seungryong Kim Kyong Hwan Jin

概要

最近の拡散モデルは、画像生成において最先端の性能を達成しているが、しばしば意味的な不整合や幻覚（hallucination）を引き起こす問題を抱えている。従来の推論時ガイドランス手法は生成品質を向上させられるものの、外部信号やモデル構造の変更に依存するため、間接的なアプローチを取ることが多く、追加の計算負荷を伴う。本論文では、基盤となる拡散モデルを変更することなく、軌道信号（trajectory signals）のみを用いて直接的に動作する、より効率的かつ直接的なガイドランス手法である「接線拡大ガイドランス（Tangential Amplifying Guidance, TAG）」を提案する。TAGは中間サンプルを射影基底として利用し、推定されたスコアの接線成分をこの基底に関して拡大することで、サンプリング軌道を修正する。このガイドランスプロセスを1次テイラー展開を用いて形式化した結果、接線成分の拡大が確率が高い領域へ状態を導くことが示され、不整合の低減とサンプル品質の向上が実現される。TAGはプラグアンドプレイ可能であり、アーキテクチャに依存しないモジュールとして、最小限の計算追加で拡散サンプリングの忠実度を向上させ、拡散ガイドランスの新たな視点を提供する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

4ヶ月前

拡散モデル

テキストから画像生成

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Hyunmin Cho Donghoon Ahn Susung Hong Jee Eun Kim Seungryong Kim Kyong Hwan Jin

概要

最近の拡散モデルは、画像生成において最先端の性能を達成しているが、しばしば意味的な不整合や幻覚（hallucination）を引き起こす問題を抱えている。従来の推論時ガイドランス手法は生成品質を向上させられるものの、外部信号やモデル構造の変更に依存するため、間接的なアプローチを取ることが多く、追加の計算負荷を伴う。本論文では、基盤となる拡散モデルを変更することなく、軌道信号（trajectory signals）のみを用いて直接的に動作する、より効率的かつ直接的なガイドランス手法である「接線拡大ガイドランス（Tangential Amplifying Guidance, TAG）」を提案する。TAGは中間サンプルを射影基底として利用し、推定されたスコアの接線成分をこの基底に関して拡大することで、サンプリング軌道を修正する。このガイドランスプロセスを1次テイラー展開を用いて形式化した結果、接線成分の拡大が確率が高い領域へ状態を導くことが示され、不整合の低減とサンプル品質の向上が実現される。TAGはプラグアンドプレイ可能であり、アーキテクチャに依存しないモジュールとして、最小限の計算追加で拡散サンプリングの忠実度を向上させ、拡散ガイドランスの新たな視点を提供する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています