Gongfan Fang Xinyin Ma Xinchao Wang

الملخص
بناءً على طلبك، إليك الترجمة العربية للنص التقني، مع مراعاة الدقة واعتماد أسلوب الكتابة الأكاديمية والتقنية:أظهرت نماذج توليد الفيديو واسعة النطاق (Large-scale video generative models) مؤخرًا قدرات بصرية فائقة، مما أتاح التنبؤ بإطارات مستقبلية تتوافق مع الدلائل المنطقية والفيزيائية الموجودة في المشهد الحالي. وفي هذا العمل، نبحث في إمكانية تسخير هذه القدرات لتحقيق توليد فيديو من الصور قابل للتحكم (controllable image-to-video generation)، وذلك من خلال تفسير الإشارات البصرية المضمنة داخل الإطارات باعتبارها توجيهات، وهي مقاربة نطلق عليها اسم "التعليمات داخل الفيديو" (In-Video Instruction).وعلى النقيض من التحكم القائم على التلقين النصي (prompt-based control)، الذي يوفر أوصافاً نصية تكون بطبيعتها شمولية وعامة، تقوم تقنية "التعليمات داخل الفيديو" بترميز توجيهات المستخدم مباشرة داخل المجال البصري عبر عناصر مثل النصوص المضافة، أو الأسهم، أو المسارات الحركية (trajectories). وتتيح هذه الآلية إيجاد روابط صريحة، ومراعية للأبعاد المكانية، وواضحة المعالم بين العناصر البصرية والإجراءات المستهدفة، وذلك من خلال تخصيص تعليمات محددة ومميزة للكائنات المختلفة.وقد أظهرت التجارب المكثفة التي أجريت على ثلاثة من أحدث نماذج التوليد، وهي Veo 3.1 وKling 2.5 وWan 2.2، أن نماذج الفيديو قادرة على تفسير وتنفيذ هذه التعليمات المضمنة بصرياً بموثوقية عالية، لا سيما في السيناريوهات المعقدة التي تتضمن كائنات متعددة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.