Command Palette
Search for a command to run...
ImagerySearch: بحث مُتكيف في وقت الاختبار لتخليق الفيديو ما وراء قيود الاعتماد الدلالي
Meiqi Wu Jiashu Zhu Xiaokun Feng Chubin Chen Chen Zhu Bingze Song Fangyuan Mao Jiahong Wu Xiangxiang Chu Kaiqi Huang

الملخص
أحرزت نماذج توليد الفيديو تقدماً ملحوظاً، خاصةً في السيناريوهات الواقعية؛ إلا أن أداؤها ينخفض بشكل ملحوظ في السيناريوهات الابداعية. غالبًا ما تتضمن هذه الأوامر مفاهيم نادرة التواجد معًا وعلاقة دلالية بعيدة المدى، ما يقع خارج توزيع التدريب. تُطبّق الطرق الحالية عادةً تقنية التوسيع في وقت الاختبار لتحسين جودة الفيديو، لكن مساحات البحث الثابتة وتصميم المكافآت الثابتة تحد من قدرتها على التكيف مع السيناريوهات الابداعية. ولسد هذه الفجوة، نقترح "ImagerySearch"، استراتيجية تبحث في وقت الاختبار مُعتمدة على الأمر (prompt) وتتكيف ديناميكياً مع مساحة البحث أثناء الاستنتاج ووظيفة المكافأة وفقاً للعلاقات الدلالية الواردة في الأمر. هذا يُمكّن من إنتاج فيديوهات أكثر اتساقاً وملاءمة بصرياً في البيئات الابداعية الصعبة. ولتقييم التقدم في هذا الاتجاه، نقدّم "LDT-Bench"، أول معيار مخصص للفهارس الدلالية البعيدة، يتضمن 2,839 زوجاً متنوعاً من المفاهيم، وبروتوكولاً آلياً لتقييم القدرات الإبداعية في التوليد. أظهرت التجارب الواسعة أن "ImagerySearch" تتفوق باستمرار على النماذج القوية لتحرير الفيديو والطرق الحالية للتوسيع في وقت الاختبار على معيار LDT-Bench، كما حققت تحسينات تنافسية على VBench، مما يدل على فعاليتها عبر أنواع مختلفة من الأوامر. وسوف نُطلق معيار LDT-Bench والكود لتمكين الأبحاث المستقبلية في مجال توليد الفيديو الابداعي.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.