2ヶ月前

学習された正規表現のシーングラフから画像生成

Herzig, Roei ; Bar, Amir ; Xu, Huijuan ; Chechik, Gal ; Darrell, Trevor ; Globerson, Amir
要約

複雑な視覚シーンの現実的な画像を生成することは、生成される画像の構造を制御したい場合に挑戦的となります。これまでのアプローチでは、少数のエンティティを持つシーンはシーングラフを使用して制御可能であることが示されていましたが、グラフの複雑さ(オブジェクトとエッジの数)が増加するとこの方法は困難になります。本研究では、現在の手法における一つの限界がグラフ内の意味的同等性を捉える能力の欠如にあることを示します。私たちはこれらの問題に対処するために、データから正準的なグラフ表現を学習する新しいモデルを提案します。これにより、複雑な視覚シーンに対する画像生成性能が向上します。提案したモデルは、大規模なシーングラフでの経験的な性能向上、入力シーングラフへのノイズに対する堅牢性、および意味的に同等なグラフへの汎化能力を示しています。最後に、Visual Genome, COCO, および CLEVR の3つの異なるベンチマークにおいてモデルの性能向上を示します。

学習された正規表現のシーングラフから画像生成 | 最新論文 | HyperAI超神経