7ヶ月前

概要

テキストから画像生成において、特に複数の被写体を対象とした場合、被写体のアイデンティティやセマンティック属性（姿勢、スタイル、照明）に対する細かい制御は、ディフュージョントランスフォーマー（DiTs）の編集可能性や一貫性をしばしば損なう。多くの手法はアーティファクトを導入したり、属性の絡み合いに悩まされる。これらの課題を克服するために、私たちは新しい多被写体制御生成モデルXVerseを提案する。リファレンス画像をトークン固有のテキストストリーム変調のオフセットに変換することで、XVerseは特定の被写体に対して正確かつ独立した制御を可能とし、画像の潜在変数や特徴量を乱すことなく操作できる。その結果、XVerseは個々の被写体特性やセマンティック属性に対する堅牢な制御とともに、高忠実度で編集可能な多被写体画像合成を提供する。この進歩は、パーソナライズされた複雑なシーン生成能力を大幅に向上させる。科技/学术术语处理：- "text-to-image generation" 译为 "テキストから画像生成"- "subject identity" 译为 "被写体のアイデンティティ"- "semantic attributes" 译为 "セマンティック属性"- "pose, style, lighting" 译为 "姿勢、スタイル、照明"- "Diffusion Transformers (DiTs)" 译为 "ディフュージョントランスフォーマー（DiTs）"- "multi-subject controlled generation model XVerse" 译为 "多被写体制御生成モデルXVerse"- "token-specific text-stream modulation" 译为 "トークン固有のテキストストリーム変調"- "image latents or features" 译为 "画像の潜在変数や特徴量"- "high-fidelity, editable multi-subject image synthesis" 译为 "高忠実度で編集可能な多被写体画像合成"- "attribute entanglement" 译为 "属性の絡み合い"希望以上翻译符合您的要求。如有任何需要调整的地方，请随时告知。

ソースPDF