Command Palette
Search for a command to run...
Tobias Vontobel Seyedmorteza Sadat Farnood Salehi Romann M. Weber

要約
拡散モデルは、画像合成の主要な手法として台頭し、卓越した写実性と多様性を示しています。しかし、高解像度での拡散モデルの学習は計算上困難であり、既存のゼロショット生成技術が訓練解像度を超える画像を合成する場合、物体の重複や空間的一貫性の欠如などのアーティファクトがしばしば発生します。本論文では、事前学習済みの拡散モデルを使用して超解像度画像合成における視覚的忠実度と構造的一貫性を大幅に向上させるための学習不要かつゼロショットの手法であるHiWaveを提案します。当手法は2段階パイプラインを採用しており、まず事前学習済みモデルからベース画像を生成し、その後パッチ単位でのDDIM逆転ステップと新しいウェーブレットベースの詳細強化モジュールを行います。具体的には、まず逆転方法を使用して、全体的な一貫性を保つ初期ノイズベクトルをベース画像から導出します。次にサンプリング時に、ウェーブレット領域の詳細強化モジュールがベース画像からの低周波数成分を保持することで構造的一致性を確保しつつ、選択的に高周波数成分を誘導して細部やテクスチャを豊かにします。Stable Diffusion XLを使用した広範な評価により、HiWaveが従来の手法で見られる一般的な視覚的アーティファクトを効果的に軽減し、優れた知覚品質を達成することが確認されました。ユーザースタディでもHiWaveの性能が確認され、比較試験において80%以上のケースで最先端の代替手法よりも優れていることが明らかになりました。これによりHiWaveが再学習やアーキテクチャ変更なしで高品質な超解像度画像合成を行う有効性が強調されています。