HyperAIHyperAI

Command Palette

Search for a command to run...

StyleNAT:各ヘッドに新たな視点を提供する

Steven Walton Ali Hassani Xingqian Xu Zhangyang Wang Humphrey Shi

概要

画像生成は長年にわたり望まれてきたが、同時に困難なタスクであり、効率的な生成を実現することもまた容易ではない。多くの研究者は、パラメータ空間における差異が極めて小さいまま、多様なデータセットに適用可能な「万能型」生成器の構築を目指してきた。本研究では、高品質な画像生成を実現しつつ、優れた効率性と柔軟性を兼ね備えた、新たなTransformerベースのフレームワーク、StyleNATを提案する。本モデルの核となるのは、局所的およびグローバルな情報を効果的に捉えるための注意機構の設計であり、これにはNeighborhood Attention(NA)を用いたアテンションヘッドの分割が採用されている。異なるアテンションヘッドが異なる受容野に注目できるため、モデルは情報をより効果的に統合でき、データの特性に高度に柔軟に対応することが可能となる。StyleNATは、FFHQ-256データセットにおいてFIDスコア2.046という新たなSOTA(最良の結果)を達成し、従来の畳み込み型モデル(StyleGAN-XL)およびTransformerベースのモデル(HIT、StyleSwin)を上回った。さらに、FFHQ-1024ではTransformerモデルとして新たなSOTAを記録し、FIDスコア4.174を達成した。これらの結果は、StyleGAN-XLと比較してFFHQ-256において6.4%のスコア向上を実現しつつ、パラメータ数を28%削減し、サンプリングスループットを56%向上させたことを示している。コードおよびモデルは、https://github.com/SHI-Labs/StyleNAT にてオープンソース化される予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています