8ヶ月前

画像間変換

拡散モデル

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Chitwan Saharia William Chan Huiwen Chang Chris A Lee Jonathan Ho Tim Salimans David J Fleet Mohammad Norouzi

概要

本論文では、条件付き拡散モデルに基づく画像間変換の統一フレームワークを開発し、このフレームワークを4つの難易度の高い画像間変換タスク、すなわち着色（colorization）、欠損補完（inpainting）、クロッピング解除（uncropping）、およびJPEG修復に評価しています。我々の単純な画像間拡散モデルの実装は、タスク固有のハイパーパラメータ調整やアーキテクチャのカスタマイズ、または補助的な損失関数や高度な新技術を必要とせずに、すべてのタスクで強力なGANと回帰ベースラインを上回りました。また、L2損失とL1損失がノイズ除去拡散目的関数におけるサンプル多様性に及ぼす影響を明らかにし、経験的調査を通じてニューラルアーキテクチャにおける自己注意機構の重要性を示しました。特に重要な点として、ImageNetに基づく評価プロトコルを提唱しており、ヒューマン評価やサンプル品質スコア（FID, Inception Score, 事前学習済みResNet-50による分類精度、元画像との知覚距離）を使用しています。我々は、この標準化された評価プロトコルが画像間変換研究の進展に貢献することを期待しています。最後に、汎用的なマルチタスク拡散モデルがタスク専門のモデルと同等かそれ以上の性能を示すことを示しました。結果の概要については https://diffusion-palette.github.io をご覧ください。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

画像間変換

拡散モデル

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Chitwan Saharia William Chan Huiwen Chang Chris A Lee Jonathan Ho Tim Salimans David J Fleet Mohammad Norouzi

概要

本論文では、条件付き拡散モデルに基づく画像間変換の統一フレームワークを開発し、このフレームワークを4つの難易度の高い画像間変換タスク、すなわち着色（colorization）、欠損補完（inpainting）、クロッピング解除（uncropping）、およびJPEG修復に評価しています。我々の単純な画像間拡散モデルの実装は、タスク固有のハイパーパラメータ調整やアーキテクチャのカスタマイズ、または補助的な損失関数や高度な新技術を必要とせずに、すべてのタスクで強力なGANと回帰ベースラインを上回りました。また、L2損失とL1損失がノイズ除去拡散目的関数におけるサンプル多様性に及ぼす影響を明らかにし、経験的調査を通じてニューラルアーキテクチャにおける自己注意機構の重要性を示しました。特に重要な点として、ImageNetに基づく評価プロトコルを提唱しており、ヒューマン評価やサンプル品質スコア（FID, Inception Score, 事前学習済みResNet-50による分類精度、元画像との知覚距離）を使用しています。我々は、この標準化された評価プロトコルが画像間変換研究の進展に貢献することを期待しています。最後に、汎用的なマルチタスク拡散モデルがタスク専門のモデルと同等かそれ以上の性能を示すことを示しました。結果の概要については https://diffusion-palette.github.io をご覧ください。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています