HNeRV: تمثيل عصبي هجين للفيديوهات

تمثيلات عصبية ضمنية تخزن مقاطع الفيديو كشبكات عصبية، وقد أظهرت أداءً ممتازًا في مهام الرؤية المختلفة مثل ضغط الفيديو وتنقيته من الضوضاء. وباستخدام مؤشر الإطار أو مؤشر الموضع كمدخل، تقوم التمثيلات الضمنية (مثل NeRV، E-NeRV، إلخ) بإعادة بناء الفيديو من خلال تضمينات ثابتة وغير مرتبطة بالمحتوى. وتكمن هذه التضمينات في حدود كبيرة لقدرة النمذجة التنبؤية والقدرة على التعميم الداخلي في مهام استيفاء الفيديو. في هذه الورقة، نقترح تمثيلًا عصبيًا هجينًا للفيديوهات (HNeRV)، حيث يُولِّد مُشِّفر قابل للتعلم تضمينات مُتَعَدِّلة حسب المحتوى، والتي تعمل كمدخل للملفّق. بالإضافة إلى التضمينات المدخلة، نُقدِّم وحدات HNeRV، التي تضمن توزيعًا متساويًا لمعامِلات النموذج عبر الشبكة بأكملها، بحيث يمكن للطبقات العليا (التي تقع بالقرب من المخرجات) أن تمتلك قدرة أكبر على تخزين المحتوى عالي الدقة وتفاصيل الفيديو. وبفضل التضمينات المُتَعَدِّلة حسب المحتوى والهيكل المُعاد تصميمه، يتفوّق HNeRV على الطرق الضمنية في مهام التنبؤ بالفيديو من حيث جودة إعادة البناء (+4.7 ديسيبل في PSNR) وسرعة التقارب (16 مرة أسرع)، كما يُظهر أداءً أفضل في التعميم الداخلي. وبكونه تمثيلًا بسيطًا وفعالًا للفيديو، يُظهر HNeRV مزايا واضحة في عملية التفكيك من حيث السرعة والمرونة وسهولة النشر، مقارنة بالكودكس التقليدية (H.264، H.265) والطرق القائمة على التعلم لضغط الفيديو. وأخيرًا، نستعرض فعالية HNeRV في المهام اللاحقة مثل ضغط الفيديو واستكمال الفيديو (video inpainting). نوفر صفحة المشروع على الرابط: https://haochen-rye.github.io/HNeRV، والكود المصدر على: https://github.com/haochen-rye/HNeRV