تحويل الصور الثابتة باستخدام النماذج التوليدية للكشف عن الأشياء البارزة في الفيديو

في العديد من مهام معالجة الفيديو، يعد الاستفادة من قواعد بيانات الصور على نطاق واسع استراتيجية شائعة، حيث تكون بيانات الصور أكثر وفرة وتيسّر نقل المعرفة الشامل. يشمل النهج التقليدي لمحاكاة الفيديو من الصور الثابتة تطبيق التحويلات المكانية مثل التحويلات الأفينية والتشويه الطولي (spline warping) لإنشاء سلاسل تشبه التقدم الزمني. ومع ذلك، في مهام مثل اكتشاف الأشياء البارزة في الفيديو، حيث تكون الإشارات البصرية والحركة حاسمة، فإن هذه التقنيات الأساسية لتحويل الصورة إلى الفيديو لا تنجح في إنتاج تدفقات ضوئية واقعية تعكس خصائص الحركة المستقلة لكل كائن. في هذه الدراسة، نظهر أن نماذج التوزيع من الصورة إلى الفيديو يمكنها إنشاء تحويلات واقعية للصور الثابتة مع فهم العلاقات السياقية بين مكونات الصورة. يسمح هذا القدرة للنموذج بإنتاج تدفقات ضوئية مقنعة، مع الحفاظ على سلامة المعنى وتعكس حركة العناصر المشهدية بشكل مستقل. عن طريق زيادة الصور الفردية بهذه الطريقة، ننشئ أزواج صورة-تدفق على نطاق واسع تساهم بشكل كبير في تعزيز تدريب النموذج. يحقق نهجنا أفضل الأداء على جميع قواعد البيانات المرجعية العامة، مما يتفوق على الأساليب الموجودة حالياً.