8日前
言語モデルが拡散モデルを上回る――視覚生成の鍵はトークナイザーにある
Lijun Yu, José Lezama, Nitesh B. Gundavarapu, Luca Versari, Kihyuk Sohn, David Minnen, Yong Cheng, Vighnesh Birodkar, Agrim Gupta, Xiuye Gu, Alexander G. Hauptmann, Boqing Gong, Ming-Hsuan Yang, Irfan Essa, David A. Ross, Lu Jiang

要約
大規模言語モデル(LLM)は、自然言語の生成タスクにおいて主流のモデルであるが、画像および動画生成においては拡散モデル(diffusion models)に比べて性能が劣る。視覚的生成にLLMを効果的に活用するための鍵となる要素の一つが、ピクセル空間の入力を、LLMの学習に適した離散トークンに変換する「視覚的トークナイザー(visual tokenizer)」である。本論文では、共通のトークン語彙を用いて、画像および動画の両方に対して簡潔かつ表現力豊かなトークンを生成することを目的とした動画用トークナイザー「MAGVIT-v2」を提案する。この新しいトークナイザーを搭載した結果、ImageNetやKineticsといった標準的な画像および動画生成ベンチマークにおいて、LLMが拡散モデルを上回ることを示した。さらに、本トークナイザーが、以下の2つの新たなタスクにおいても、従来の最優秀動画トークナイザーを上回ることを実証した。(1)人間評価に基づく動画圧縮性能が次世代動画コーデック(VCC)と同等の水準に達すること、(2)行動認識タスクにおける有効な表現学習が可能となること。