Command Palette
Search for a command to run...
Shen Sang Tiancheng Zhi Tianpei Gu Jing Liu Linjie Luo

الملخص
نقدّم نموذج "ليكس" (Lynx)، وهو نموذج عالي الدقة لإنشاء مقاطع فيديو شخصية من صورة إدخال واحدة. تم بناء ليكس على نموذج أساسي مفتوح المصدر يُعرف بـ "مُحول التشتت" (Diffusion Transformer - DiT)، حيث يُقدّم ليكس مكونين خفيفي الوزن (أداة تكييف) لضمان الحفاظ على الهوية. تُستخدم أداة الهوية (ID-adapter) مع مُحوّل "بيروسيفر" (Perceiver Resampler) لتحويل المُدمجات الوجهية المستمدة من خوارزمية ArcFace إلى رموز هوية مدمجة، تُستخدم كشرط لتحديد الهوية. أما أداة المرجع (Ref-adapter)، فهي تدمج ميزات VAE الكثيفة من مسار مرجعي ثابت، وتنقل تفاصيل دقيقة عبر جميع طبقات المحول من خلال الانتباه المتقاطع (cross-attention). يُسهم هذان المكوّنان معًا في ضمان الحفاظ القوي على الهوية، مع الحفاظ على اتساق الزمنية وواقعية الصورة البصرية. وقد أظهر ليكس أداءً متفوقًا في تقييمه على معيار مُختَرَق يشمل 40 موضوعًا و20 مطالبة غير متحيزة، ما أنتج 800 حالة اختبار، حيث أثبت تشابهًا عالياً في ملامح الوجه، واتباعًا جيدًا للمطالبات، ونوعية فيديو قوية، مما يُعدّ تقدماً ملموسًا في مجال إنشاء مقاطع فيديو شخصية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.