HyperAI
منذ 16 أيام

XVerse: التحكم المتسق في الهوية والخصائص الدلالية لعدة مواضيع من خلال تعديل DiT

Bowen Chen; Mengyi Zhao; Haomiao Sun; Li Chen; Xu Wang; Kang Du; Xinglong Wu
XVerse: التحكم المتسق في الهوية والخصائص الدلالية لعدة مواضيع من خلال تعديل DiT
الملخص

تحقيق التحكم الدقيق في الهوية الموضوعية والسمات الدلالية (الوضع، الأسلوب، الإضاءة) في توليد الصور من النص، خاصة بالنسبة لموضوعات متعددة، غالباً ما يقوض قابلية التعديل والتماسك نماذج متحولات الانتشار (DiTs). العديد من الأساليب تدخل تشوهات أو تعاني من تشابك السمات. لتجاوز هذه التحديات، نقترح نموذجاً جديداً لتوليد صور متعددة المواضيع تحت السيطرة يُدعى XVerse. من خلال تحويل الصور المرجعية إلى اختلافات لتعديل مجرى النص المحدد للرمز، يتيح XVerse التحكم الدقيق والاستقلالي في موضوع معين دون إرباك الكامنات أو الخصائص الصورية. ونتيجة لذلك، يقدم XVerse تركيب صور متعددة المواضيع قابل للتعديل بجودة عالية مع سيطرة قوية على خصائص الموضوع الفردي والسمات الدلالية. هذا التقدم يحسن بشكل كبير قدرات توليد المشاهد الشخصية والمعقدة.