HyperAIHyperAI

Command Palette

Search for a command to run...

主題一貫かつ姿勢多様なテキストから画像生成

Zhanxin Gao Beier Zhu Liang Yao Jian Yang Ying Tai

概要

主題一貫生成(SCG)- 多様なシーンにおいて一貫した主題のアイデンティティを維持することを目指す - は、テキストから画像への変換(T2I)モデルにとって依然として課題となっています。既存の学習不要のSCG手法は、多くの場合、レイアウトやポーズの多様性を犠牲にして一貫性を達成しており、表現力豊かな視覚的な物語作りを妨げています。この制約に対処するため、我々は一貫した主題と多様なポーズを持つT2Iフレームワークである「CoDi」を提案します。拡散過程が初期には粗い構造が現れ、後期には細かい詳細が洗練されるという特性に着想を得て、CoDiはアイデンティティ輸送(IT)とアイデンティティ洗練(IR)の二段階戦略を採用しています。ITは初期のノイズ除去ステップで動作し、最適輸送を使用してポーズに応じた方法で各目標画像にアイデンティティ特徴を転送します。これにより主題の一貫性が促進されつつ、ポーズの多様性も保たれます。IRは後期のノイズ除去ステップで適用され、最も目立つアイデンティティ特徴を選択して主題の詳細をさらに洗練します。主題の一貫性、ポーズの多様性、プロンプト忠実度に関する広範な定性的および定量的評価結果から、CoDiは視覚的認識とすべての指標におけるパフォーマンスにおいて優れた成果を達成していることが示されています。コードは https://github.com/NJU-PCALab/CoDi で提供されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
主題一貫かつ姿勢多様なテキストから画像生成 | 記事 | HyperAI超神経