HyperAIHyperAI

Command Palette

Search for a command to run...

عندما تتحدث الأرقام: مواءمة الأرقام النصية مع الحالات المرئية في نماذج Text-to-Video Diffusion Models

Zhengyang Sun Yu Chen Xin Zhou Xiaofan Li Xiwu Chen Dingkang Liang Xiang Bai

الملخص

لقد مكنت نماذج الـ diffusion من نص إلى فيديو (Text-to-video diffusion models) من عملية توليد فيديوهات مفتوحة النهايات، إلا أنها غالبًا ما تواجه صعوبة في توليد العدد الصحيح من الكائنات المحددة في الـ prompt. نقدم في هذا البحث NUMINA، وهو إطار عمل (framework) لا يحتاج إلى عملية training، يعتمد على مبدأ "التحديد ثم التوجيه" (identify-then-guide) لتحسين المواءمة العددية (numerical alignment).يقوم NUMINA بتحديد التناقضات بين الـ prompt والـ layout من خلال اختيار رؤوس (heads) تمييزية من الـ self-attention والـ cross-attention لاستخلاص layout كامن (latent layout) قابل للعد. بعد ذلك، يقوم الإطار بتحسين هذا الـ layout بشكل تحفظي، ويعمل على تعديل الـ cross-attention لتوجيه عملية إعادة التوليد (regeneration).وعبر استخدام benchmark الذي قدمناه، CountBench، نجح NUMINA في تحسين دقة العد بنسبة تصل إلى 7.4% على نموذج Wan2.1-1.3B، وبنسبة 4.9% و5.5% على نموذجي الـ 5B والـ 14B على التوالي. علاوة على ذلك، تم تحسين المواءمة مع CLIP مع الحفاظ على الاتساق الزمني (temporal consistency). تُثبت هذه النتائج أن التوجيه الهيكلي (structural guidance) يكمل عمليات البحث عن البذرة (seed search) وتحسين الـ prompt، مما يوفر مسارًا عمليًا نحو نماذج text-to-video diffusion دقيقة في العد.الكود متاح على الرابط التالي: https://github.com/H-EmbodVis/NUMINA


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp