استخراج الميزات الفعّال لاستيفاء الإطارات في الفيديو عالي الدقة

تتألف معظم الطرق المستخدمة في التعلم العميق لاستيفاء إطارات الفيديو من ثلاثة مكونات رئيسية: استخلاص الميزات، وتقدير الحركة، وإنشاء الصورة. وتميّز الطرق الحالية بشكل رئيسي من حيث طريقة تصميم هذه الوحدات. ومع ذلك، عند استيفاء الصور عالية الدقة، مثل الصور بجودة 4K، فإن خيارات التصميم الممكنة لتحقيق دقة عالية ضمن متطلبات معقولة من الذاكرة محدودة. تساعد طبقات استخلاص الميزات في ضغط الإدخال واستخلاص المعلومات ذات الصلة للمراحل اللاحقة، مثل تقدير الحركة. ولكن غالبًا ما تكون هذه الطبقات باهظة التكلفة من حيث عدد المعلمات، ووقت الحساب، والذاكرة. نُظهر كيف يمكن استخدام أفكار من تخفيض الأبعاد مع تحسين خفيف الوزن لضغط تمثيل الإدخال مع الحفاظ على المعلومات المستخرجة مناسبة لاستيفاء الإطارات. علاوةً على ذلك، لا نتطلب شبكة تدفق مُدرّبة مسبقًا ولا شبكة لإنشاء الصورة، مما يقلل بشكل إضافي من عدد المعلمات القابلة للتدريب والذاكرة المطلوبة. عند التقييم على ثلاث معايير بجودة 4K، نحقق جودة صورة متقدمة جدًا بين الطرق التي لا تعتمد على تدريب مسبق للتدفق، مع أقل تعقيد للشبكة وأقل متطلبات للذاكرة مطلقًا.