HyperAIHyperAI

Command Palette

Search for a command to run...

高解像度画像合成のためのトランスフォーマーの制御

Esser Patrick ; Rombach Robin ; Ommer Björn

概要

シーケンシャルデータにおける長距離相互作用を学習するために設計されたトランスフォーマーは、多様なタスクにおいて最先端の結果を継続的に示しています。CNNとは異なり、トランスフォーマーには局所的な相互作用を優先する誘導バイアスが含まれていません。これにより表現力は高まりますが、高解像度画像のような長いシーケンスに対しては計算上実現不可能となります。本研究では、CNNの誘導バイアスの効果とトランスフォーマーの表現力を組み合わせることで、高解像度画像のモデル化および合成が可能になることを示します。(i) 画像構成要素のコンテクスト豊かな語彙を学習するためにCNNを使用し、(ii) その構成を高解像度画像内で効率的にモデル化するためにトランスフォーマーを利用する方法を示します。当方の手法は条件付き合成タスクに容易に適用でき、物体クラスなどの非空間的情報やセグメンテーションなどの空間的情報によって生成される画像を制御できます。特に、メガピクセル画像の意味論的ガイダンスによる合成においてトランスフォーマーを使用した最初の結果を提示し、クラス条件付きImageNetでの自己回帰モデルの中でも最先端の性能を得ています。コードと事前学習済みモデルは https://github.com/CompVis/taming-transformers で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
高解像度画像合成のためのトランスフォーマーの制御 | 記事 | HyperAI超神経