2ヶ月前

レイアウトからの画像生成

Zhao, Bo ; Meng, Lili ; Yin, Weidong ; Sigal, Leonid
レイアウトからの画像生成
要約

最近の生成モデルにおいて大きな進歩が見られましたが、複数かつ複雑な物体配置を描写した画像の制御された生成は依然として難しい問題となっています。その主要な課題には、特定の物体が持つ外観の多様性と、その結果として指定された配置に一致する画像の指数関数的な集合があることが挙げられます。これらの課題に対処するために、我々は新しいレイアウトベースの画像生成手法を提案します。これをLayout2Imと呼びます。粗い空間配置(バウンディングボックス + 物体カテゴリ)が与えられた場合、当モデルは所望の位置に正しい物体を持つ一連の現実的な画像を生成することができます。各物体の表現は、指定された部分(カテゴリ)と未指定または不確定な部分(外観)に分離されます。カテゴリは単語埋め込みを使用して符号化され、外観は正規分布からサンプリングされた低次元ベクトルに凝縮されます。個々の物体表現は畳み込みLSTMを使用して合成され、完全なレイアウトの符号化を得た後、画像へデコードされます。正確で多様な生成を促すためにいくつかの損失項が導入されています。提案されたLayout2Imモデルは以前の最先端技術を大幅に上回り、非常に困難なCOCO-StuffおよびVisual Genomeデータセットにおいて、それぞれ最高報告値のインセプションスコアを24.66%および28.57%向上させました。広範囲にわたる実験では、当手法が複数の物体を持つ複雑で多様な画像を生成する能力も示されています。

レイアウトからの画像生成 | 最新論文 | HyperAI超神経