6ヶ月前

アプローチ／フレームワーク

コンピュータビジョン

Mark Weber Lijun Yu Qihang Yu Xueqing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen

概要

クラス条件付き画像生成におけるマスク付き変換器モデルは、拡散モデルに対する魅力的な代替手段として注目されている。一般的に、潜在空間と画像空間の間を遷移させる初期段階のVQGANモデルと、潜在空間内での画像生成を担う後続の変換器モデルの二段階構成から成り立つこれらのフレームワークは、画像合成の分野において有望な道を示している。本研究では、以下の2つの主要な貢献を提示する。第一に、VQGANに対する実証的かつ体系的な検証を通じて、現代化されたVQGANの構築を実現した。第二に、ビットトークン（意味論的に豊かな情報を保持する二値量子化表現）上で直接動作する、埋め込みを不要とする新たな生成ネットワークの提案である。第一の貢献により、透明性が高く再現性が保たれ、高性能なVQGANモデルが提供され、最新の最先端手法と同等の性能を達成するとともに、これまで明らかにされていなかった新たな知見を明らかにした。第二の貢献では、ビットトークンを用いた埋め込み不要な画像生成が、ImageNet 256×256ベンチマークにおいてFIDスコア1.52という新たな最先端水準を達成することを示した。さらに、生成器モデルのパラメータ数はわずか305Mと、非常にコンパクトな規模である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

アプローチ／フレームワーク

コンピュータビジョン

Mark Weber Lijun Yu Qihang Yu Xueqing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen

概要

クラス条件付き画像生成におけるマスク付き変換器モデルは、拡散モデルに対する魅力的な代替手段として注目されている。一般的に、潜在空間と画像空間の間を遷移させる初期段階のVQGANモデルと、潜在空間内での画像生成を担う後続の変換器モデルの二段階構成から成り立つこれらのフレームワークは、画像合成の分野において有望な道を示している。本研究では、以下の2つの主要な貢献を提示する。第一に、VQGANに対する実証的かつ体系的な検証を通じて、現代化されたVQGANの構築を実現した。第二に、ビットトークン（意味論的に豊かな情報を保持する二値量子化表現）上で直接動作する、埋め込みを不要とする新たな生成ネットワークの提案である。第一の貢献により、透明性が高く再現性が保たれ、高性能なVQGANモデルが提供され、最新の最先端手法と同等の性能を達成するとともに、これまで明らかにされていなかった新たな知見を明らかにした。第二の貢献では、ビットトークンを用いた埋め込み不要な画像生成が、ImageNet 256×256ベンチマークにおいてFIDスコア1.52という新たな最先端水準を達成することを示した。さらに、生成器モデルのパラメータ数はわずか305Mと、非常にコンパクトな規模である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています