Command Palette
Search for a command to run...
عندما تتحدث الأرقام: مواءمة الأرقام النصية مع الحالات المرئية في نماذج Text-to-Video Diffusion Models
عندما تتحدث الأرقام: مواءمة الأرقام النصية مع الحالات المرئية في نماذج Text-to-Video Diffusion Models
Zhengyang Sun Yu Chen Xin Zhou Xiaofan Li Xiwu Chen Dingkang Liang Xiang Bai
الملخص
لقد مكنت نماذج الـ diffusion من نص إلى فيديو (Text-to-video diffusion models) من عملية توليد فيديوهات مفتوحة النهايات، إلا أنها غالبًا ما تواجه صعوبة في توليد العدد الصحيح من الكائنات المحددة في الـ prompt. نقدم في هذا البحث NUMINA، وهو إطار عمل (framework) لا يحتاج إلى عملية training، يعتمد على مبدأ "التحديد ثم التوجيه" (identify-then-guide) لتحسين المواءمة العددية (numerical alignment).يقوم NUMINA بتحديد التناقضات بين الـ prompt والـ layout من خلال اختيار رؤوس (heads) تمييزية من الـ self-attention والـ cross-attention لاستخلاص layout كامن (latent layout) قابل للعد. بعد ذلك، يقوم الإطار بتحسين هذا الـ layout بشكل تحفظي، ويعمل على تعديل الـ cross-attention لتوجيه عملية إعادة التوليد (regeneration).وعبر استخدام benchmark الذي قدمناه، CountBench، نجح NUMINA في تحسين دقة العد بنسبة تصل إلى 7.4% على نموذج Wan2.1-1.3B، وبنسبة 4.9% و5.5% على نموذجي الـ 5B والـ 14B على التوالي. علاوة على ذلك، تم تحسين المواءمة مع CLIP مع الحفاظ على الاتساق الزمني (temporal consistency). تُثبت هذه النتائج أن التوجيه الهيكلي (structural guidance) يكمل عمليات البحث عن البذرة (seed search) وتحسين الـ prompt، مما يوفر مسارًا عمليًا نحو نماذج text-to-video diffusion دقيقة في العد.الكود متاح على الرابط التالي: https://github.com/H-EmbodVis/NUMINA