8ヶ月前

拡散モデル

画像間変換

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Senmao Li1, Joost van de Weijer2, Taihang Hu1, Fahad Shahbaz Khan3, Qibin Hou1, Yaxing Wang1(✉), Jian Yang1, Ming-Ming Cheng1

概要

大規模な研究が、事前学習済み拡散モデルの驚異的な能力を画像編集に活用することに注がれています。これらの手法は、モデルの微調整や、事前学習済みモデルの潜在空間での画像逆変換を行います。しかし、これらには2つの問題があります：(1) 選択された領域では満足のいく結果が得られず、選択されていない領域で予期せぬ変化が生じる。(2) 入力画像内のすべての視覚的オブジェクトを含むテキストプロンプトの慎重な編集が必要です。これらの問題に対処するため、我々は2つの改善点を提案します：(1) 交差注意層における値線形ネットワークの入力のみを最適化することで、実際の画像を再構築するのに十分な力を発揮できます。(2) 注意正則化を提案し、再構築と編集後にオブジェクトのような注意マップを保つことで、大きな構造的な変更を引き起こすことなく正確なスタイル編集を行うことが可能になります。さらに、P2Pで使用される分類器なしガイダンスの無条件分岐に使用される編集技術も改良しました。多様な画像に対する広範な実験的なプロンプト編集結果から、定性的および定量的に我々の方法が既存および同時進行の研究よりも優れた編集能力を持つことが示されています。関連コードについては Stylediffusion（\url{https://github.com/sen-mao/StyleDiffusion}）をご覧ください。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

拡散モデル

画像間変換

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Senmao Li1, Joost van de Weijer2, Taihang Hu1, Fahad Shahbaz Khan3, Qibin Hou1, Yaxing Wang1(✉), Jian Yang1, Ming-Ming Cheng1

概要

大規模な研究が、事前学習済み拡散モデルの驚異的な能力を画像編集に活用することに注がれています。これらの手法は、モデルの微調整や、事前学習済みモデルの潜在空間での画像逆変換を行います。しかし、これらには2つの問題があります：(1) 選択された領域では満足のいく結果が得られず、選択されていない領域で予期せぬ変化が生じる。(2) 入力画像内のすべての視覚的オブジェクトを含むテキストプロンプトの慎重な編集が必要です。これらの問題に対処するため、我々は2つの改善点を提案します：(1) 交差注意層における値線形ネットワークの入力のみを最適化することで、実際の画像を再構築するのに十分な力を発揮できます。(2) 注意正則化を提案し、再構築と編集後にオブジェクトのような注意マップを保つことで、大きな構造的な変更を引き起こすことなく正確なスタイル編集を行うことが可能になります。さらに、P2Pで使用される分類器なしガイダンスの無条件分岐に使用される編集技術も改良しました。多様な画像に対する広範な実験的なプロンプト編集結果から、定性的および定量的に我々の方法が既存および同時進行の研究よりも優れた編集能力を持つことが示されています。関連コードについては Stylediffusion（\url{https://github.com/sen-mao/StyleDiffusion}）をご覧ください。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています