Command Palette
Search for a command to run...
シーン生成のための構成的Transformer
シーン生成のための構成的Transformer
Larry Zitnick Dor Arad Hudson
概要
我々は、生成モデリングというタスクに向けた反復的かつオブジェクト指向型のトランスフォーマーである「GANformer2」モデルを提案する。このネットワークは、視覚シーンの構成的性質を反映する強力で明示的な構造的事前知識を組み込み、順次的なプロセスを通じて画像を合成する。モデルは2段階で動作する:まず、高速かつ軽量な計画段階において、高レベルのシーンレイアウトを概略的に描画する。その後、アテンションに基づく実行段階に移行し、このレイアウトが段階的に精緻化され、豊かで詳細な画像へと進化する。従来の平坦かつ単一の潜在空間を持つブラックボックス型GANアーキテクチャとは異なり、本モデルは効率性、制御性、解釈可能性を促進する透明な設計を採用している。多様なデータセット(複数オブジェクトを含むCLEVRシーンから、挑戦的なCOCO画像まで)における詳細な評価を通じて、GANformer2の優れた性能を実証した。視覚的品質、多様性、一貫性という観点で、最先端の性能を達成していることを示した。さらに、実験によりモデルの分離性(disentanglement)を検証し、生成プロセスの深層的な理解を可能にした。モデルは、粗い初期スケッチから始まり、オブジェクトの奥行きや依存関係を考慮した詳細なレイアウトへと段階的に進化し、最終的には鮮やかで複雑な現実世界のシーンを高解像度で再現するまでに至る。モデルの実装は、https://github.com/dorarad/gansformer を参照のこと。