CSD-VAR: تحليل المحتوى والأسلوب في النماذج التصويرية الذاتية التكرارية

فصل المحتوى والأسلوب من صورة واحدة، المعروف بتفكيك المحتوى والأسلوب (CSD)، يمكّن من إعادة سياق المحتوى المستخرج وإضفاء الأسلوب على الأنماط المستخرجة، مما يوفر مرونة إبداعية أكبر في التركيب البصري. بينما استكشفت الطرق الشخصية الحديثة تفكيك الأسلوب الصريح للمحتوى، فإنها لا تزال مخصصة للنماذج التوزيعية. في الوقت نفسه، ظهر النمذجة الذاتية المتكررة البصرية (VAR) كبديل واعد مع نموذج تنبؤ متدرج بالحجم، مما حقق أداءً مparableً لأداء النماذج التوزيعية. في هذا البحث، نستكشف VAR كإطار جينيراتيف لـ CSD، مستفيدين من عملية التوليد حسب الحجم لتحسين الفصل. لهذا الغرض، نقترح CSD-VAR، طريقة جديدة تقدم ثلاثة ابتكارات رئيسية: (1) استراتيجية تحسين بديلة واعية للحجم التي تتماشى تمثيلات المحتوى والأسلوب مع مقاساتها الخاصة لتعزيز الفصل، (2) طريقة تصحيح تعتمد على التحليل القياسي المفرد (SVD) لتخفيف تسرب المحتوى إلى تمثيلات الأسلوب، و(3) ذاكرة قيمة-مفتاح (K-V) محسنة لحفظ هوية المحتوى. لقياس مستوى هذه المهمة، نقدم CSD-100، مجموعة بيانات مصممة خصيصًا لتفكيك المحتوى والأسلوب وتتميز بموضوعات متنوعة تم تقديمها بأساليب فنية مختلفة. أظهرت التجارب أن CSD-VAR يتفوق على الطرق السابقة، حيث حقق حفظًا أفضل للمحتوى وأمانًا أعلى للأسلوب.请注意,"next-scale prediction paradigm" 翻译为 "نموذج تنبؤ متدرج بالحجم" 是为了更好地适应阿拉伯语的表达习惯,而 "performance comparable to that of diffusion models" 翻译为 "أداءً قابل للمقارنة مع أداء النماذج التوزيعية" 以保持句子的流畅性和正式性。其他术语如 "scale-aware alternating optimization strategy" 和 "Augmented Key-Value (K-V) memory" 也进行了相应的调整,以确保专业性和可读性的平衡。