Command Palette
Search for a command to run...
فيديو-كـمُبَرَّر: التحكم الموحّد في المعنى لتجهيز الفيديو
Yuxuan Bian Xin Chen Zenan Li Tiancheng Zhi Shen Sang Linjie Luo Qiang Xu

الملخص
تبقى المراقبة الشاملة والقابلة للتعميم على المستوى المعنى في إنشاء مقاطع الفيديو تحديًا مفتوحًا بالغ الأهمية. تُظهر الطرق الحالية إما إدخال تشوهات من خلال فرض مُسبقات بيكسلية غير مناسبة من خلال التحكم القائم على البنية، أو الاعتماد على عمليات تدريب دقيق مخصصة للظروف أو هياكل مخصصة للمهام، مما يقلل من قابليتها للتعميم. نقدّم "فيديو كمُحفِّز" (VAP)، نموذجًا جديدًا يعيد صياغة هذه المشكلة على هيئة إنشاء في السياق. يعتمد VAP على استخدام فيديو مرجعي كمُحفِّز معنوي مباشر، ويوجه نموذج التحويل التفاضلي للفيديو (DiT) الثابت من خلال خبير مُركب من التحويلات (MoT) يمكن توصيله بسهولة. تعزز هذه البنية من منع النسيان الكارثي، وتُرشد بواسطة تمثيل مكاني مُتحيّز زمنيًا يُزيل المُسبقات الخاطئة في التمثيل، مما يضمن استرجاع سياقي قوي. ولتمكين هذا النهج وتحفيز الأبحاث المستقبلية، أنشأنا مجموعة البيانات VAP-Data، وهي أكبر مجموعة بيانات مخصصة لإنشاء مقاطع فيديو مُتحكم بها من حيث المعنى، تضم أكثر من 100 ألف زوج من مقاطع الفيديو عبر 100 شرطًا معنويًا. وبكونه نموذجًا موحدًا واحدًا، يُحقّق VAP أفضل أداء مُسجّل حتى الآن بين الطرق المفتوحة المصدر، بتحصيله معدل تفضيل من المستخدمين بلغ 38.7%، مُنافسًا بذلك النماذج التجارية المُخصصة للظروف المحددة والرائدة في مجالها. ويُعدّ التعميم الصفرية القوي ودعم VAP لتطبيقات متعددة في المهام اللاحقة خطوة كبيرة نحو تحقيق إنشاء مقاطع فيديو قابلة للتحكم بشكل عام وشامل.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.