11日前

Open-MAGVIT2:自律的視覚生成を民主化するためのオープンソースプロジェクト

Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan
Open-MAGVIT2:自律的視覚生成を民主化するためのオープンソースプロジェクト
要約

本稿では、3億~15億パラメータ規模の自己回帰型画像生成モデル群であるOpen-MAGVIT2を紹介する。Open-MAGVIT2プロジェクトは、GoogleのMAGVIT-v2トークナイザーのオープンソース再現を実現しており、極めて大きなコードブック(2¹⁸個のコード)を有する。このモデルは、ImageNet 256×256画像データセットにおいて、最先端の再構成性能(rFID: 1.17)を達成した。さらに、本モデルを単純な自己回帰型モデルへの応用を検討し、スケーラビリティの特性を実証した。大規模な語彙を有する自己回帰モデルが効果的に予測を行うために、非対称トークン因子分解により語彙を異なるサイズの2つの部分語彙に分解し、さらに「次なる部分トークン予測(next sub-token prediction)」という手法を導入することで、部分トークン間の相互作用を強化し、生成品質の向上を実現した。本研究では、すべてのモデルおよびコードを公開し、自己回帰型視覚生成分野におけるイノベーションと創造性の促進を目的としている。

Open-MAGVIT2:自律的視覚生成を民主化するためのオープンソースプロジェクト | 最新論文 | HyperAI超神経