HyperAIHyperAI

Command Palette

Search for a command to run...

CogView: Transformerを用いたテキストから画像生成の掌握

Ming Ding†, Zhuoyi Yang†, Wenyi Hong‡, Wendi Zheng†, Chang Zhou†, Da Yin†, Junyang Lin‡, Xu Zou†, Zhou Shao♠, Hongxia Yang‡, Jie Tang†♠

概要

一般領域におけるテキストから画像の生成は、強力な生成モデルとクロスモーダル理解を必要とする長年の未解決問題でした。本研究では、この問題を進展させるために40億パラメータを持つトランスフォーマーとVQ-VAEトークナイザーを使用したCogViewを提案します。また、スタイル学習、超解像、テキスト-画像ランキング、ファッションデザインなどの様々な下流タスクに対するファインチューニング戦略と、事前学習の安定化方法(例:NaNロスの除去)についても示しています。CogViewはぼかし処理されたMS COCOデータセットで最先端のFIDスコアを達成し、以前のGANベースのモデルや最近の類似研究DALL-Eを上回っています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています