3ヶ月前

GIVT:Generative Infinite-Vocabulary Transformers

Michael Tschannen, Cian Eastwood, Fabian Mentzer
GIVT:Generative Infinite-Vocabulary Transformers
要約

我々は、有限の語彙から離散的なトークンを生成するのではなく、実数値をもつ要素を持つベクトル列を生成する「生成型無限語彙変換器(Generative Infinite-Vocabulary Transformers: GIVT)」を提案する。この目的のため、単一デコーダー構造の変換器に対して、驚くほど単純な2つの修正を提案する。第一に、入力側では、有限語彙に対する検索テーブルを、入力ベクトルの線形射影に置き換える。第二に、出力側では、通常はカテゴリカル分布にマッピングされるロジットの予測を、多次元ガウス混合モデル(Gaussian Mixture Model: GMM)のパラメータの予測に置き換える。VQ-GANやMaskGITといった画像生成アーキテクチャに着想を得ており、これらでは変換器がVQ-VAEの離散的潜在変数列をモデル化している。これに対して、GIVTは$β$-VAEの量子化されていない実数値潜在変数列を直接モデル化する。分類条件付き画像生成において、GIVTはVQ-GAN(およびその改良版)およびMaskGITを上回り、最近の潜在拡散モデルと同等の性能を達成した。さらに、UViMフレームワークのVAE変種を用いて、GIVTをパノプティックセグメンテーションおよび深度推定に適用した結果、画像生成以外のタスクにおいても優れた結果が得られた。