HyperAI超神経

普及モデル普及モデル

機械学習では、拡散モデルは、拡散確率モデルまたはスコアベースの生成モデルとも呼ばれます。潜在変数生成モデルの一種です。拡散モデルは、順方向プロセス、逆方向プロセス、サンプリング プロセスの 3 つの主要な部分で構成されます。拡散モデルの目標は、特定のデータセットの確率分布を生成する拡散プロセスを学習することです。データ ポイントが潜在空間に広がる方法をモデル化することで、データ セットの潜在構造を学習します。

コンピュータ ビジョンの観点から見ると、拡散モデルは、画像のノイズ除去、修復、超解像度、画像生成などのさまざまなタスクに適用できます。通常、ガウス ノイズによってぼやけた画像を順次ノイズ除去するためにニューラル ネットワークをトレーニングする必要があります。このモデルは、画像にノイズを追加するプロセスを逆にするようにトレーニングされています。トレーニングが収束した後は、ランダム ノイズで構成された画像から開始してネットワークで反復的にノイズを除去する画像生成に使用できます。例としては、OpenAI のテキストから画像へのモデル DALL-E 2 があります。これは、モデルの事前 (テキスト キャプションが与えられた画像埋め込みを生成する) と最終画像を生成するデコーダーの両方に拡散モデルを使用します。拡散モデルは最近、自然言語処理 (NLP)、特にテキストの生成や要約などの分野での応用が見出されています。コンピュータ ビジョンで使用される一般的な拡散モデリング フレームワークの例には、ノイズ除去拡散確率モデル、ノイズ条件スコアリング ネットワーク、確率微分方程式などがあります。

拡散モデルは非平衡熱力学からインスピレーションを得ています。彼らは、ランダム ノイズをデータにゆっくりと追加する拡散ステップのマルコフ チェーンを定義し、拡散プロセスを反転してノイズから目的のデータ サンプルを構築する方法を学習しました。 VAE やフロー モデルとは異なり、拡散モデルは一定の手順を通じて学習され、潜在変数は高次元 (元のデータと同じ) になります。

参考文献

【1】https://lilianweng.github.io/posts/2021-07-11-diffusion-models/

【2】https://en.wikipedia.org/wiki/Diffusion_model