8ヶ月前

概要

私たちのモデルが視覚的世界を真に理解するためには、画像を認識するだけでなく、生成することもできるべきです。この目的のために、自然言語の説明から画像を生成する技術において最近興味深い進展が見られています。これらの手法は、鳥や花などの限定的なドメインでは驚くべき結果を示していますが、多くの物体と関係性を持つ複雑な文章を忠実に再現することは困難です。この制約を克服するために、シーングラフから画像を生成する方法を提案します。これにより、物体とその関係性について明示的に推論することが可能になります。当モデルは、入力グラフの処理にグラフ畳み込みを使用し、物体のバウンディングボックスとセグメンテーションマスクを予測することでシーンレイアウトを計算し、カスケードリファインメントネットワークによってレイアウトを画像に変換します。ネットワークは対抗的な学習により訓練され、2つの識別器に対してリアルな出力を確保します。我々はVisual GenomeおよびCOCO-Stuffデータセットで当アプローチの有効性を検証しました。定性的評価、アブレーション研究（ablation studies）、ユーザースタディにより、当手法が複数の物体を持つ複雑な画像を生成できる能力が示されています。

ソースPDF