17日前

ImageBART:自己回帰的画像生成のための多項分布拡散を用いた双方向コンテキスト

Patrick Esser, Robin Rombach, Andreas Blattmann, Björn Ommer
ImageBART:自己回帰的画像生成のための多項分布拡散を用いた双方向コンテキスト
要約

自己回帰モデル(autoregressive models)およびそのデータ尤度の逐次的因子分解は、近年、画像表現および画像合成において大きな可能性を示している。しかし、これらのモデルは、すでに生成された画像のパッチ(上または左)のみに注目することで、画像のコンテキストを1次元の線形順序でしか捉えられない。この一方向かつ逐次的な注目メカニズムは、画像の文脈において自然ではない。なぜなら、合成がほぼ完了するまでシーンの大部分を無視してしまうからである。また、画像全体を単一スケールで処理するため、シーン全体の全体像(gist)にまで及ぶより広範なコンテキスト情報を無視してしまう。これを補うために、自己回帰形式と多項分布拡散過程(multinomial diffusion process)を組み合わせることで、粗いものから細かいものへの階層的コンテキストを導入する。多段階の拡散過程は、画像を段階的に粗くしていく一方で、我々は(短い)マルコフ連鎖を訓練し、このプロセスを逆転させる。各段階において、得られる自己回帰型のImageBARTモデルは、粗い段階から細かい段階へと順次、前の段階からのコンテキストを段階的に組み込む。実験の結果、自己回帰モデルに比べて大幅に改善された画像編集能力を示すとともに、高忠実度の画像生成も可能である。これらは、圧縮された潜在空間(latent space)における効率的な訓練によって実現されている。特に、本手法はユーザーが自由に指定したマスクをそのまま利用でき、局所的な画像編集を可能にする。従来の純粋な自己回帰モデルとは異なり、マスク固有の訓練を必要とせずに、自由形式の画像補間(inpainting)や、条件付きモデルにおいてテキスト誘導型の局所的画像編集を実現できる。

ImageBART:自己回帰的画像生成のための多項分布拡散を用いた双方向コンテキスト | 最新論文 | HyperAI超神経