2ヶ月前

イメージ・トランスフォーマー

Niki Parmar; Ashish Vaswani; Jakob Uszkoreit; Łukasz Kaiser; Noam Shazeer; Alexander Ku; Dustin Tran
イメージ・トランスフォーマー
要約

画像生成は、自己回帰的なシーケンス生成または変換問題として成功裏に定式化されました。最近の研究では、自己注意がテキストのシーケンスモデリングにおいて効果的な手法であることが示されています。本研究では、自己注意に基づく最近提案されたモデルアーキテクチャであるTransformerを、計算可能な尤度を持つ画像生成のシーケンスモデリングに一般化しました。自己注意メカニズムを局所領域へのみ注目するように制限することで、層ごとの受容野が典型的な畳み込みニューラルネットワークよりも大幅に大きいまま、実際の処理でモデルが扱える画像のサイズを大幅に増加させました。概念的には単純ですが、我々の生成モデルはImageNetでの画像生成における現行の最先端技術を大幅に上回り、ImageNet上の最良の公表済み負対数尤度を3.83から3.77へと改善しました。また、エンコーダー-デコーダー構成を使用して大倍率の画像超解像にも結果を示しています。ヒューマン評価研究において、我々の超解像モデルによって生成された画像は、以前の最先端技術よりも人間観察者を三倍以上の頻度で欺くことができることが確認されました。

イメージ・トランスフォーマー | 最新論文 | HyperAI超神経