
要約
シーケンシャルデータにおける長距離相互作用を学習するために設計されたトランスフォーマーは、多様なタスクにおいて最先端の結果を継続的に示しています。CNNとは異なり、トランスフォーマーには局所的な相互作用を優先する誘導バイアスが含まれていません。これにより表現力は高まりますが、高解像度画像のような長いシーケンスに対しては計算上実現不可能となります。本研究では、CNNの誘導バイアスの効果とトランスフォーマーの表現力を組み合わせることで、高解像度画像のモデル化および合成が可能になることを示します。(i) 画像構成要素のコンテクスト豊かな語彙を学習するためにCNNを使用し、(ii) その構成を高解像度画像内で効率的にモデル化するためにトランスフォーマーを利用する方法を示します。当方の手法は条件付き合成タスクに容易に適用でき、物体クラスなどの非空間的情報やセグメンテーションなどの空間的情報によって生成される画像を制御できます。特に、メガピクセル画像の意味論的ガイダンスによる合成においてトランスフォーマーを使用した最初の結果を提示し、クラス条件付きImageNetでの自己回帰モデルの中でも最先端の性能を得ています。コードと事前学習済みモデルは https://github.com/CompVis/taming-transformers で公開されています。