HyperAIHyperAI

Command Palette

Search for a command to run...

التوليد الضبابي المركز: توليد فعال للصور والفيديو متكيف مكانيًا

Brian Chao Lior Yariv Howard Xiao Gordon Wetzstein

الملخص

تمكّنت نماذج الانتشار (Diffusion) ومطابقة التدفق (flow matching) من فتح آفاق غير مسبوقة في مجال إنشاء المحتوى الإبداعي، مثل توليد الصور التفاعلية ومقاطع الفيديو المتدفقة. غير أن الطلب المتزايد على دقات أعلى، ومعدلات إطارات مرتفعة، وأطوال سياق أطول، يجعل عملية التوليد الفعّالة أكثر تحدياً، حيث تزداد التعقيدات الحسابية بشكل تربيعي مع عدد الرموز (tokens) المولَّدة. تسعى هذه الدراسة إلى تحسين كفاءة عملية التوليد في السياقات التي تكون فيها مواقع نظر المستخدم معروفة أو قابلة للتقدير، مثلاً باستخدام تتبع العين (eye tracking). في مثل هذه السياقات، نستفيد من حدة البصر المعتمدة على الانحراف المركزي (eccentricity-dependent acuity) في الرؤية البشرية: فبينما يدرك المستخدم معلومات بصرية عالية الدقة جداً في منطقة صغيرة حول موقع نظره (المنطقة المركزية أو الفوفاوية foveal region)، فإن القدرة على تمييز التفاصيل تتدهور بسرعة في المحيط البصري.تبدأ منهجيتنا بتطبيق قناع (mask) يُمثّل الدقة المركزية لتوزيع الرموز (tokens) بشكل غير منتظم، حيث نخصص كثافة أعلى من الرموز للمنطقة الفوفاوية وكثافة أقل للمناطق المحيطة. ويتم توليد الصورة أو الفيديو في إعداد رموز ذات دقة مختلطة، مما ينتج نتائج لا يمكن تمييزها إدراكياً عن التوليد بدقة كاملة، مع تقليل عدد الرموز ووقت التوليد بشكل جذري. ولتحقيق ذلك، نطور آلية مبنية على مبادئ واضحة لبناء رموز ذات دقة مختلطة مباشرةً من بيانات عالية الدقة، مما يتيح تدريب نموذج انتشار مركزي (foveated diffusion model) بشكل لاحق (post-training) انطلاقاً من نموذج أساسي موجود، مع الحفاظ على اتساق المحتوى عبر مختلف الدقات.نُثبت فعالية منهجيتنا من خلال تحليلات موسّعة ودراسة مستخدمين مصممة بعناية، مُظهِرين أن التوجيه المركزي (foveation) يُعدّ محوراً عملياً وقابلاً للتوسع لتحسين كفاءة التوليد.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp