HyperAIHyperAI
منذ 8 أيام

INR-V: فضاء تمثيلي مستمر للمهام التوليدية القائمة على الفيديو

Bipasha Sen, Aditya Agarwal, Vinay P Namboodiri, C. V. Jawahar
INR-V: فضاء تمثيلي مستمر للمهام التوليدية القائمة على الفيديو
الملخص

يُعد إنشاء مقاطع الفيديو مهمة معقدة يتم تنفيذها من خلال إنشاء مجموعة من الصور المتماسكة زمنيًا بشكل تدريجي، إطارًا تلو الآخر. ويُحدِّد هذا النهج التعبيرية الخاصة بمقاطع الفيديو إلى العمليات القائمة على الصور المُجرَّدة لكل إطار في الفيديو، مما يتطلب تصميم شبكات عصبية لضمان مسارات متماسكة زمنيًا في الفضاء الصوري الأساسي. نقترح نموذج INR-V، وهو شبكة تمثيل فيديو تتعلم فضاءً مستمرًا لأغراض إنشائية قائمة على الفيديو. يُمثّل INR-V مقاطع الفيديو باستخدام تمثيلات عصبية ضمنية (INRs)، وهي شبكة عصبية متعددة الطبقات (MLP) تقوم بتوقع قيمة RGB لكل موقع بكسل مدخل في الفيديو. ويتم توقع هذه الشبكة العصبية من خلال شبكة فرعية (Meta-network)، وهي شبكة فرعية (Hypernetwork) تم تدريبها على تمثيلات عصبية لعدد من حالات الفيديو المختلفة. وبعد ذلك، يمكن استخلاص هذه الشبكة الفرعية لتكوين مقاطع فيديو جديدة ومتنوعة، مما يمكّن من تنفيذ العديد من المهام الإنشائية القائمة على الفيديو في المراحل اللاحقة. وبشكل مثير للاهتمام، نلاحظ أن الت régularization الشرطي وبدء التهيئة التدريجية للوزن يلعبان دورًا حاسمًا في تحقيق أداء ممتاز لنموذج INR-V. يُظهر الفضاء التمثيلي الذي تتعلمه INR-V تعبيرًا أقوى من الفضاء الصوري، ويتميز بعدة خصائص مثيرة لا يمكن تحقيقها في الدراسات السابقة. على سبيل المثال، يمكن لـ INR-V إجراء تداخل سلس بين مقاطع فيديو معروفة (مثل الهويات الوسطى، أو التعبيرات، أو المواقف في مقاطع الفيديو التي تُظهر الوجه). كما يمكنه أيضًا إعادة بناء أجزاء مفقودة في الفيديو لاستعادة مقاطع فيديو كاملة متماسكة زمنيًا. في هذا العمل، قمنا بتقييم الفضاء المُتعلّم بواسطة INR-V على مهام إنشائية متنوعة مثل تداخل الفيديو، وإنشاء مقاطع فيديو جديدة، وعكس الفيديو (Video Inversion)، وإعادة بناء الفيديو (Video Inpainting)، مقارنةً بالأساليب الحالية. وقد أظهر INR-V تفوقًا كبيرًا على الأساليب المُقارنة في العديد من هذه المهام، مما يُبرز بوضوح الإمكانات الكبيرة للفضاء التمثيلي المقترح.

INR-V: فضاء تمثيلي مستمر للمهام التوليدية القائمة على الفيديو | أحدث الأوراق البحثية | HyperAI