PS-NeRV: تمثيلات عصبية مُزَيَّنة على مستوى اللوحة للفيديوهات

ندرس كيفية تمثيل الفيديو باستخدام التمثيلات العصبية الضمنية (INRs). تُستخدم غالبًا طرق INRs التقليدية الشبكات العصبية المتعددة الطبقات (MLPs) لتحويل الإحداثيات المدخلة إلى بكسلات المخرجات. بينما حاولت بعض الدراسات الحديثة إعادة بناء الصورة الكاملة مباشرة باستخدام الشبكات العصبية التلافيفية (CNNs). ومع ذلك، نجادل بأن كلا الاستراتيجيتين—التي تعتمد على المعالجة البكسلية والصورة الكاملة—ليستا ملائمتين للبيانات الفيديو. بدلًا من ذلك، نقترح حلًا يعتمد على المعالجة بالقطع (patch-wise)، يُسمى PS-NeRV، والذي يمثل الفيديو كدالة تابعة للقطع والإحداثيات المرتبطة بها. ويُرَكّز هذا النموذج بشكل طبيعي على المزايا التي تتمتع بها الطرق القائمة على الصورة الكاملة، ويحقق أداءً ممتازًا في إعادة البناء بسرعة عالية في التفكيك. يتضمن النموذج كليًا وحدات تقليدية مثل التضمين المكاني (positional embedding) والشبكات العصبية المتعددة الطبقات (MLPs) والشبكات العصبية التلافيفية (CNNs)، كما يُدخل تقنية AdaIN لتعزيز الميزات المتوسطة. وتشكل هذه التغييرات البسيطة ولكن الجوهرية مساعدة كبيرة للشبكة في التكيف مع التفاصيل عالية التردد بسهولة. وأظهرت التجارب الواسعة فعالية هذا النموذج في عدة مهام مرتبطة بالفيديو، مثل ضغط الفيديو وإعادة تعبئة الفيديو (video inpainting).