البديل: تحكم خفيف الوزن وقابل للتشغيل الفوري في الهوية لتصنيع الفيديو

يُعد إنشاء مقاطع فيديو بشرية عالية الدقة تتماشى مع هويات محددة من قبل المستخدم أمرًا مهمًا لكنه يواجه صعوبات كبيرة في مجال الذكاء الاصطناعي التوليدي. تُعتمد الطرق الحالية غالبًا على عدد كبير جدًا من المعاملات التدريبية، وتعاني من قلة التوافق مع أدوات الذكاء الاصطناعي الأخرى لإنشاء المحتوى (AIGC). في هذه الورقة، نقترح إطار عمل يُسمى "ستاند-إن" (Stand-In)، وهو إطار خفيف الوزن وقابل للتشغيل الفوري (plug-and-play) لحفظ الهوية في إنشاء الفيديوهات. وبشكل محدد، نُدخل فرعًا صورًا شرطيًا إلى نموذج إنشاء الفيديو المُدرّب مسبقًا. يتم تحقيق التحكم في الهوية من خلال انتباه ذاتي مقيد باستخدام تعيين موقعي شرطي، ويمكن تعلّم هذه الخاصية بسرعة باستخدام فقط 2000 زوج من البيانات. وعلى الرغم من إدراج وتدريب حوالي 1٪ فقط من المعاملات الإضافية، يحقق إطارنا نتائج ممتازة من حيث جودة الفيديو وحفظ الهوية، متفوقًا على الطرق الأخرى التي تعتمد على تدريب جميع المعاملات. علاوةً على ذلك، يمكن دمج إطارنا بسلاسة في مهام أخرى مثل إنشاء الفيديو القائم على الموضوع، وإنشاء الفيديو المرجعي بالوضعية، والتحوّل النمطي (stylization)، وتبديل الوجه (face swapping).