Command Palette
Search for a command to run...
Jihwan Kim Junoh Kang Jinyoung Choi Bohyung Han

الملخص
نُقدّم تقنية استنتاج جديدة تعتمد على نموذج توزيع مُدرّب مسبقًا لإنجاز توليد مقاطع فيديو شرطية بالنص. يُسمّى نهجنا "FIFO-Diffusion"، وهو قادر مفهوميًا على إنتاج مقاطع فيديو لا نهائية الطول دون الحاجة إلى التدريب. يتم ذلك من خلال تنفيذ تكراري لعملية إزالة الضوضاء القطرية، التي تُعالج بالتوازي سلسلة من الإطارات المتتالية بمستويات ضوضاء متزايدة داخل قائمة انتظار؛ حيث نُزيل الإطار المُنظف تمامًا من الطرف الأمامي للقائمة، ونُضيف إطارًا جديدًا عشوائيًا من الضوضاء إلى الطرف الخلفي. ومع ذلك، فإن إزالة الضوضاء القطرية تمثل سيفًا ذا حدين، إذ يمكن للإطارات القريبة من الطرف الخلفي الاستفادة من الإطارات الأنظف من خلال الإشارة إلى الأمام (forward referencing)، لكن هذه الاستراتيجية تُحدث فجوة بين مرحلتي التدريب والاستنتاج. لذا، نُقدّم تقسيم الفضاء الخفي (latent partitioning) لتقليل هذه الفجوة، بالإضافة إلى تقنية إزالة الضوضاء المتقدمة (lookahead denoising) للاستفادة من مزايا الإشارة إلى الأمام. وقد أظهرنا نتائج واعدة وفعالية واضحة للطرق المقترحة على القواعد الأساسية الحالية لتوليد الفيديو من النص.
مستودعات الكود
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| video-generation-on-ucf-101 | FIFO-Diffusion | FVD128: 596.64 Inception Score: 74.44 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.