17日前

Swinv2-Imagen：テキストから画像生成を実現する階層的Vision Transformerドリフトモデル

Ruijun Li, Weihua Li, Yi Yang, Hanyu Wei, Jianhua Jiang, Quan Bai

要約

近年、複数の研究において、拡散モデル（diffusion models）がテキストから画像を生成するタスクにおいて優れた性能を発揮することが実証されており、画像生成分野に新たな研究機会をもたらしている。グーグルが開発したImagenもこの研究動向を踏襲し、テキストから画像生成を行うモデルとしてDALL-E 2を上回る性能を示している。しかし、Imagenはテキスト処理にT5言語モデルを用いるにとどまっており、テキストの意味情報を十分に学習できるとは限らない。また、Imagenが採用しているEfficient UNetは、画像処理において最適な選択とは言えない。これらの課題に対処するため、本研究では階層的視覚変換器（Hierarchical Visual Transformer）と意味的レイアウトを組み込んだシーングラフ（Scene Graph）を基盤とする、新たなテキストから画像への拡散モデル「Swinv2-Imagen」を提案する。本モデルでは、エンティティおよび関係の特徴ベクトルを抽出し、拡散モデルに統合することで、生成画像の品質を顕著に向上させた。さらに、CNNの畳み込み演算に起因する問題を解消するため、Swin変換器に基づくUNetアーキテクチャ「Swinv2-Unet」を導入した。広範な実験により、MSCOCO、CUB、MM-CelebA-HQの3つの実世界データセットを用いて提案モデルの性能を評価した結果、複数の代表的な最先端手法を上回ることが確認された。