16日前
MaskBit:ビットトークンを用いた埋め込み不要な画像生成
Mark Weber, Lijun Yu, Qihang Yu, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen

要約
クラス条件付き画像生成におけるマスク付き変換器モデルは、拡散モデルに対する魅力的な代替手段として注目されている。一般的に、潜在空間と画像空間の間を遷移させる初期段階のVQGANモデルと、潜在空間内での画像生成を担う後続の変換器モデルの二段階構成から成り立つこれらのフレームワークは、画像合成の分野において有望な道を示している。本研究では、以下の2つの主要な貢献を提示する。第一に、VQGANに対する実証的かつ体系的な検証を通じて、現代化されたVQGANの構築を実現した。第二に、ビットトークン(意味論的に豊かな情報を保持する二値量子化表現)上で直接動作する、埋め込みを不要とする新たな生成ネットワークの提案である。第一の貢献により、透明性が高く再現性が保たれ、高性能なVQGANモデルが提供され、最新の最先端手法と同等の性能を達成するとともに、これまで明らかにされていなかった新たな知見を明らかにした。第二の貢献では、ビットトークンを用いた埋め込み不要な画像生成が、ImageNet 256×256ベンチマークにおいてFIDスコア1.52という新たな最先端水準を達成することを示した。さらに、生成器モデルのパラメータ数はわずか305Mと、非常にコンパクトな規模である。