17日前

生成対抗変換器

Drew A. Hudson, C. Lawrence Zitnick
生成対抗変換器
要約

我々は、視覚的生成モデリングというタスクに向けた新しい効率的なTransformer型アーキテクチャ「GANformer」を提案し、その性能を検証する。このネットワークは、画像全体にわたる長距離相互作用を可能にする二部構造(bipartite structure)を採用しつつ、線形計算効率を維持することで、高解像度画像合成への容易なスケーラビリティを実現している。GANformerは、潜在変数群から進化する視覚特徴へ、そしてその逆方向へ情報を反復的に伝搬させることで、両者を互いに補完しながら精緻化を促進し、オブジェクトやシーンの構成的表現の出現を促進する。従来のTransformerアーキテクチャとは異なり、乗法的統合(multiplicative integration)を用いることで、柔軟な領域ベースのモジュレーションが可能となり、成功したStyleGANネットワークの一般化と見なすことができる。複数のデータセット(シミュレートされた複数オブジェクト環境から、実世界の屋内・屋外シーンまで)における包括的な評価を通じて、本モデルが画像品質および多様性の面で最先端の性能を達成していることを示した。さらに、高速な学習速度と優れたデータ効率性も確認された。追加の定性的および定量的実験により、モデルの内部挙動に対する洞察が得られ、解釈可能性の向上とより強固な分離性(disentanglement)が明らかになった。これにより、本手法の利点と有効性が裏付けられた。モデルの実装は、https://github.com/dorarad/gansformer にて公開されている。

生成対抗変換器 | 最新論文 | HyperAI超神経