iMontage: توليد صور متعدد إلى متعدد موحد، متعدد الاستخدامات، وعالي الديناميكية

الملخص
تتعلم النماذج الفيديو المُدرَّبة مسبقًا احتمالات قوية لتصنيع محتوى عالي الجودة وموثوق زمنيًا. وعلى الرغم من تميّز هذه النماذج في الحفاظ على الاتساق الزمني، فإن دينامياتها غالبًا ما تكون محدودة بسبب الطبيعة المستمرة لبيانات التدريب. ونفترض أنه من خلال دمج تنوع المحتوى الغني وغير المحدود من بيانات الصور في هذا الإطار الزمني المتماسك، يمكننا إنتاج مجموعات صور تتميز بانتقالات طبيعية ونطاق ديناميكي أبعد بكثير. ولتحقيق هذا الهدف، نقدّم "iMontage"، وهي إطار موحد مصمم لإعادة استخدام نموذج فيديو قوي كمُولِّد صور شامل. يقبل هذا الإطار وينتج مجموعات صور بطول متغير، ويُوحِّد طائفة واسعة من مهام إنشاء الصور وتحريرها. ولتحقيق ذلك، نقترح استراتيجية تكييف أنيقة وقليلة التدخل، مدعومة بعملية تقييم بيانات مخصصة ونمط تدريب مُعدّ خصيصًا. يُمكّن هذا النهج النموذج من اكتساب قدرات واسعة في معالجة الصور دون إفساد الاحتمالات الحركية الأصلية القيّمة. وتُظهر "iMontage" أداءً متميزًا في عدة مهام شائعة من نوع "كثير في، كثير خارج"، حيث تُحافظ على اتساق سياقي قوي بين الصور، كما تُنتج مشاهد ذات ديناميكية استثنائية تتجاوز النطاقات التقليدية. لمزيد من المعلومات، زوروا موقعنا الرسمي: https://kr1sjfu.github.io/iMontage-web/.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.