Hunyuan-DiT: 強力なマルチ解像度拡散トランスときめ細かい中国語理解モデル

このモデルは、初の中国語と英語のバイリンガル DiT アーキテクチャであり、拡散変換に基づいたテキストから画像への生成モデルであり、中国語と英語でのきめ細かい理解機能を備えています。 Hunyuan DiT を構築するために、研究チームは Transformer の構造、テキストエンコーダー、および位置エンコーディングを慎重に再設計しました。モデル最適化の反復を支援するために、データを更新および評価するための完全なデータパイプラインが構築されました。詳細なテキスト理解を実現するために、このプロジェクトでは、画像のテキスト記述を最適化するためにマルチモーダル大規模言語モデルをトレーニングしました。最終的に、HunyuanDiT はユーザーと複数回の対話を実施し、コンテキストに基づいて画像を生成および改善することができます。

🎉 Hunyuan-DiT の主な機能

Hunyuan-DiT は、以下の図に示すように、潜在空間における拡散モデルです。潜在拡散モデルに基づいて、事前トレーニングされた変分オートエンコーダー (VAE) を使用して画像を低次元潜在空間に圧縮し、拡散モデルをトレーニングし、拡散モデルを使用してデータ分布を学習します。拡散モデルはトランスフォーマーを使用してパラメータ化されます。テキストキューをエンコードするために、モデルは事前にトレーニングされた二言語 (英語と中国語) CLIP と多言語 T5 エンコーダーの組み合わせを利用します。

マルチラウンドビンセントグラフ構築

自然言語の命令を理解し、複数回にわたってユーザーと対話することは、人工知能にとって非常に重要です。テキストから画像へのシステムは、ダイナミックで反復的なクリエイティブプロセスの構築に役立ち、ユーザーのアイデアを段階的に現実に変えることができます。このセクションでは、Hunyuan-DiT に複数ラウンドの対話と画像生成を実行する機能を与え、複数ラウンドのユーザー対話を理解するように mlm をトレーニングし、画像生成のための新しいテキストプロンプトを出力する方法を詳しく説明します。

モデル生成パフォーマンス

長文入力

📈既存モデルとの比較

HunyuanDiT と他のモデルの生成機能を包括的に比較するために、研究チームは 50 名を超える専門の評価者を招いて、テキストと画像の一貫性、AI アーティファクトの排除、トピックの明瞭さ、美しさなどを評価する 4 次元のテストセットを構築しました。他の面でのパフォーマンス。

モデル	オープンソース	テキストと画像の一貫性 (%)	AI アーティファクトを除く (%)	主題の明瞭さ (%)	美学 (%)	全体（%）
モデル	オープンソース	SDXL	✔	64.3	美学 (%)	全体（%）	60.6	91.1	76.3	42.7
PixArt-α	✔	68.3	60.9	93.2	77.5	45.5
遊び場 2.5	✔	71.9	70.8	94.9	83.3	54.3
SD3	✘	77.1	69.3	94.6	82.5	56.7
ミッドジャーニー v6	✘	73.5	80.2	93.5	87.2	63.3
ダルイー3	✘	83.9	80.3	96.5	89.4	71.0
フンユアン-DiT	✔	74.2	74.3	95.4	86.6	59.0

チュートリアルの使用法

1. コンテナのクローンを作成して起動します

[注意] モデルが大きいため、コンテナが正常に起動されてから使用できるようになるまで、モデルがロードされるまで 2 ～ 3 分ほど時間がかかる場合があります。

2. 操作インターフェース

サンプリングステップの数が多いほど生成効果は高くなりますが、生成時間は長くなります。默认的采样步数生成时间在一分钟左右