17日前

TransGAN:2つの純粋なTransformerで強力なGANを構築可能、かつスケーラブルである

Yifan Jiang, Shiyu Chang, Zhangyang Wang
TransGAN:2つの純粋なTransformerで強力なGANを構築可能、かつスケーラブルである
要約

近年、トランスフォーマーに対する注目が急激に高まっており、画像認識、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて、汎用的な「ユニバーサル」モデルとしての可能性が示唆されている。これらの研究の多くは判別モデルに焦点を当てているが、本研究では、より困難な視覚タスク、特に生成的対抗ネットワーク(GAN)にトランスフォーマーを適用することを試みる。目的は、畳み込み演算を一切用いずに、純粋なトランスフォーマー構造のみで構成されるGANの構築に関する初めてのパイロット研究を行うことである。我々が提案する基本的なGANアーキテクチャ、通称「TransGAN」は、特徴量の解像度を段階的に増加させるメモリ効率の良いトランスフォーマー型生成器と、同時に意味的文脈と低レベルのテクスチャを捉えるためのマルチスケール判別器から構成される。さらに、高解像度画像生成に向けたスケーラビリティを実現するために、メモリボトルネックを緩和する新たなモジュールである「グリッド自己注意(grid self-attention)」を導入している。また、TransGANの訓練安定性を向上させるため、独自の訓練ルールを構築しており、データ拡張、修正された正規化手法、相対的位置符号化などの技術を組み合わせている。最良のアーキテクチャでは、畳み込みベースの最新GANと比較しても非常に競争力のある性能を達成している。特に、STL-10データセットにおいて、Inceptionスコア10.43、FID 18.28という新たなSOTA(最先端)記録を樹立し、StyleGAN-V2を上回った。256×256といった高解像度画像生成タスク(CelebA-HQやLSUN-Church)においても、高い多様性と高精度な再現性を備えた自然な画像を継続的に生成でき、驚くべきテクスチャの詳細性を示した。さらに、トランスフォーマーに基づく生成モデルの動作特性が畳み込みベースのモデルとどのように異なるかを理解するため、訓練過程の可視化を通じて深く分析を行った。本研究のコードは、https://github.com/VITA-Group/TransGAN にて公開されている。

TransGAN:2つの純粋なTransformerで強力なGANを構築可能、かつスケーラブルである | 最新論文 | HyperAI超神経