HyperAIHyperAI

Command Palette

Search for a command to run...

Swinv2-Imagen:テキストから画像生成を実現する階層的Vision Transformerドリフトモデル

Ruijun Li Weihua Li Yi Yang Hanyu Wei Jianhua Jiang Quan Bai

概要

近年、複数の研究において、拡散モデル(diffusion models)がテキストから画像を生成するタスクにおいて優れた性能を発揮することが実証されており、画像生成分野に新たな研究機会をもたらしている。グーグルが開発したImagenもこの研究動向を踏襲し、テキストから画像生成を行うモデルとしてDALL-E 2を上回る性能を示している。しかし、Imagenはテキスト処理にT5言語モデルを用いるにとどまっており、テキストの意味情報を十分に学習できるとは限らない。また、Imagenが採用しているEfficient UNetは、画像処理において最適な選択とは言えない。これらの課題に対処するため、本研究では階層的視覚変換器(Hierarchical Visual Transformer)と意味的レイアウトを組み込んだシーングラフ(Scene Graph)を基盤とする、新たなテキストから画像への拡散モデル「Swinv2-Imagen」を提案する。本モデルでは、エンティティおよび関係の特徴ベクトルを抽出し、拡散モデルに統合することで、生成画像の品質を顕著に向上させた。さらに、CNNの畳み込み演算に起因する問題を解消するため、Swin変換器に基づくUNetアーキテクチャ「Swinv2-Unet」を導入した。広範な実験により、MSCOCO、CUB、MM-CelebA-HQの3つの実世界データセットを用いて提案モデルの性能を評価した結果、複数の代表的な最先端手法を上回ることが確認された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Swinv2-Imagen:テキストから画像生成を実現する階層的Vision Transformerドリフトモデル | 記事 | HyperAI超神経