2ヶ月前

パノプティックレイアウト生成を用いた対話型画像合成

Wang, Bo ; Wu, Tao ; Zhu, Minfeng ; Du, Peng
パノプティックレイアウト生成を用いた対話型画像合成
要約

ユーザーのガイド入力から対話的に画像を合成することは、生成された画像のシーン構造を簡単に制御したい場合に困難な課題です。レイアウトベースの画像合成手法には著しい進歩が見られますが、現存する方法は高精度の入力を必要とし、これがおそらく複数回の調整を必要とし、初心者ユーザーには使いづらいという問題があります。境界ボックスの配置が摂動を受けた場合、レイアウトベースのモデルは構築されたセマンティックレイアウトにおいて「欠落領域」を生じさせ、生成された画像に望ましくないアーティファクトを引き起こします。本研究では、この課題に対処するためにパノプティックレイアウトジェネレーティブアドバーザリネットワーク(Panoptic Layout Generative Adversarial Networks: PLGAN)を提案します。PLGANは、物体カテゴリを「形狀が定義されていないもの(stuff)」と「形狀が明確に定義されているもの(things)」に区別するパノプティック理論を採用しており、stuffとインスタンスレイアウトはそれぞれ別のブランチで構築され、その後パノプティックレイアウトとして統合されます。特に、stuffレイアウトは不定形の形状を取り、インスタンスレイアウトによって残された欠落領域を埋めることができます。我々はCOCO-Stuff、Visual Genome、およびLandscapeデータセットを使用して、PLGANを最新のレイアウトベースモデルと実験的に比較しました。PLGANの優位性は視覚的に示されるだけでなく、インセプションスコア、フリーケテット・インセプション距離(Fr\'echet inception distance)、分類精度スコア、およびカバレージなどの指標において定量的に確認されています。

パノプティックレイアウト生成を用いた対話型画像合成 | 最新論文 | HyperAI超神経