HyperAIHyperAI
منذ 16 أيام

الانتباه المُبادِل في التوزيعات الزمكانية لإنجاز التوليد النصي-الفيديو

Wenjing Wang, Huan Yang, Zixi Tuo, Huiguo He, Junchen Zhu, Jianlong Fu, Jiaying Liu
الانتباه المُبادِل في التوزيعات الزمكانية لإنجاز التوليد النصي-الفيديو
الملخص

مع انتشار محتوى الذكاء الاصطناعي المُولَّد (AIGC) بشكل متسارع، حظيت توليد الفيديوهات مؤخرًا باهتمام كبير. يمثل توليد الفيديوهات بناءً على تعليمات نصية تحديات كبيرة، مثل نمذجة العلاقة المعقدة بين الفضاء والزمن، بالإضافة إلى نقص البيانات المُزدوجة النص-فيديو على نطاق واسع. تعاني المجموعات الحالية من البيانات النص-فيديو من قيود تتعلق بجودة المحتوى وحجمها، أو أنها ليست مفتوحة المصدر، مما يجعلها غير قابلة للدراسة والاستخدام. أما في تصميم النماذج، فإن النهج السابقة امتدت من نماذج توليد الصور من النص المُدرَّبة مسبقًا من خلال إضافة وحدات تبادلية ذات تقارب 1D زمني أو تقارب مكاني لدعم توليد الفيديوهات. ومع ذلك، فإن هذه النهج تتجاهل الأهمية البالغة لنمذجة الفضاء والزمن معًا، ما يؤدي حتمًا إلى تشوهات زمنية وعدم تزامن بين النصوص والفيديوهات. في هذه الورقة، نقترح منهجية جديدة تعزز التفاعل بين الإدراك المكاني والزمني. وبشكل خاص، نستخدم آلية تبادلية متبادلة (swapped cross-attention) داخل نوافذ ثلاثية الأبعاد، حيث يتم تبديل دور "الاستعلام" بين الكتل المكانية والزمنية، مما يتيح تعزيزًا متبادلًا بينهما. علاوةً على ذلك، ولإطلاق الإمكانات الكاملة للنموذج في توليد فيديوهات عالية الجودة وتعزيز تطور المجال، قمنا بتكوين مجموعة بيانات فيديو كبيرة الحجم ومتاحة مفتوحة المصدر تُدعى HD-VG-130M. تضم هذه المجموعة 130 مليون زوج من النصوص والفيديوهات من المجال المفتوح، مع ضمان جودة عالية، وعرض واسع، وغياب العلامات المائية. كما يحتوي على مجموعة فرعية أصغر حجمًا ولكنها مُنظفة بدقة أكبر، ما يعزز جودة البيانات ويساعد النماذج على تحقيق أداء متميز. تُظهر النتائج الكمية والنوعية التجريبية تفوق منهجيتنا من حيث جودة الإطارات الفردية، والارتباط الزمني، والتزامن بين النصوص والفيديوهات، بفارق واضح.

الانتباه المُبادِل في التوزيعات الزمكانية لإنجاز التوليد النصي-الفيديو | أحدث الأوراق البحثية | HyperAI