17日前
StyleNAT:各ヘッドに新たな視点を提供する
Steven Walton, Ali Hassani, Xingqian Xu, Zhangyang Wang, Humphrey Shi

要約
画像生成は長年にわたり望まれてきたが、同時に困難なタスクであり、効率的な生成を実現することもまた容易ではない。多くの研究者は、パラメータ空間における差異が極めて小さいまま、多様なデータセットに適用可能な「万能型」生成器の構築を目指してきた。本研究では、高品質な画像生成を実現しつつ、優れた効率性と柔軟性を兼ね備えた、新たなTransformerベースのフレームワーク、StyleNATを提案する。本モデルの核となるのは、局所的およびグローバルな情報を効果的に捉えるための注意機構の設計であり、これにはNeighborhood Attention(NA)を用いたアテンションヘッドの分割が採用されている。異なるアテンションヘッドが異なる受容野に注目できるため、モデルは情報をより効果的に統合でき、データの特性に高度に柔軟に対応することが可能となる。StyleNATは、FFHQ-256データセットにおいてFIDスコア2.046という新たなSOTA(最良の結果)を達成し、従来の畳み込み型モデル(StyleGAN-XL)およびTransformerベースのモデル(HIT、StyleSwin)を上回った。さらに、FFHQ-1024ではTransformerモデルとして新たなSOTAを記録し、FIDスコア4.174を達成した。これらの結果は、StyleGAN-XLと比較してFFHQ-256において6.4%のスコア向上を実現しつつ、パラメータ数を28%削減し、サンプリングスループットを56%向上させたことを示している。コードおよびモデルは、https://github.com/SHI-Labs/StyleNAT にてオープンソース化される予定である。