6ヶ月前

画像間変換

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Zhuoyan Luo Fengyuan Shi Yixiao Ge Yujiu Yang Limin Wang Ying Shan

概要

本稿では、3億～15億パラメータ規模の自己回帰型画像生成モデル群であるOpen-MAGVIT2を紹介する。Open-MAGVIT2プロジェクトは、GoogleのMAGVIT-v2トークナイザーのオープンソース再現を実現しており、極めて大きなコードブック（2¹⁸個のコード）を有する。このモデルは、ImageNet 256×256画像データセットにおいて、最先端の再構成性能（rFID: 1.17）を達成した。さらに、本モデルを単純な自己回帰型モデルへの応用を検討し、スケーラビリティの特性を実証した。大規模な語彙を有する自己回帰モデルが効果的に予測を行うために、非対称トークン因子分解により語彙を異なるサイズの2つの部分語彙に分解し、さらに「次なる部分トークン予測（next sub-token prediction）」という手法を導入することで、部分トークン間の相互作用を強化し、生成品質の向上を実現した。本研究では、すべてのモデルおよびコードを公開し、自己回帰型視覚生成分野におけるイノベーションと創造性の促進を目的としている。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

画像間変換

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Zhuoyan Luo Fengyuan Shi Yixiao Ge Yujiu Yang Limin Wang Ying Shan

概要

本稿では、3億～15億パラメータ規模の自己回帰型画像生成モデル群であるOpen-MAGVIT2を紹介する。Open-MAGVIT2プロジェクトは、GoogleのMAGVIT-v2トークナイザーのオープンソース再現を実現しており、極めて大きなコードブック（2¹⁸個のコード）を有する。このモデルは、ImageNet 256×256画像データセットにおいて、最先端の再構成性能（rFID: 1.17）を達成した。さらに、本モデルを単純な自己回帰型モデルへの応用を検討し、スケーラビリティの特性を実証した。大規模な語彙を有する自己回帰モデルが効果的に予測を行うために、非対称トークン因子分解により語彙を異なるサイズの2つの部分語彙に分解し、さらに「次なる部分トークン予測（next sub-token prediction）」という手法を導入することで、部分トークン間の相互作用を強化し、生成品質の向上を実現した。本研究では、すべてのモデルおよびコードを公開し、自己回帰型視覚生成分野におけるイノベーションと創造性の促進を目的としている。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Open-MAGVIT2：自律的視覚生成を民主化するためのオープンソースプロジェクト | 記事 | HyperAI超神経