HyperAI
منذ 15 أيام

بيانات-الوهم: نحو مجموعة بيانات لتقديم فيديوهات متسقة مع الموضوع بشكل عام

Zhuowei Chen, Bingchuan Li, Tianxiang Ma, Lijie Liu, Mingcong Liu, Yi Zhang, Gen Li, Xinghui Li, Siyu Zhou, Qian He, Xinglong Wu
بيانات-الوهم: نحو مجموعة بيانات لتقديم فيديوهات متسقة مع الموضوع بشكل عام
الملخص

شهدت توليد الفيديو من الموضوعات تقدماً كبيراً في السنوات الأخيرة. ومع ذلك، لا تزال النماذج الحالية تواجه تحديات كبيرة في اتباع التعليمات النصية بدقة. يُعرف هذا القيد عادة باسم مشكلة "نسخ ولصق" (copy-paste problem)، وينشأ من نموذج التدريب المزوج الشائع الاستخدام. يربط هذا النهج بشكل جوهري هوية الموضوع بخصائص الخلفية والسياق من خلال أخذ صور مرجعية من نفس المشهد الذي يتم تصوير الفيديو المستهدف منه. لمعالجة هذه المشكلة، نقدم مجموعة البيانات Phantom-Data، وهي أول مجموعة بيانات شاملة للتوافق بين الموضوعات والفيديوهات عبر الأزواج المتقاطعة، وتحتوي على حوالي مليون زوج متسق في الهوية عبر فئات متنوعة.تم بناء مجموعتنا من البيانات عبر خطوات ثلاث: (1) وحدة كشف الموضوعات العامة والمتناسقة مع الإدخال، (2) استرجاع موضوعات على نطاق واسع عبر سياقات مختلفة من أكثر من 53 مليون فيديو و3 مليار صورة، و(3) التحقق من الهوية بمساعدة سابقة لضمان التوافق البصري تحت تنوع السياقات. تظهر التجارب الشاملة أن التدريب باستخدام Phantom-Data يحسن بشكل كبير توافق التعليمات وجودة الصورة بينما يحافظ على التوافق في الهوية بمعدل مماثل لنماذج التدريب المزوج.