HyperAIHyperAI
منذ 13 أيام

PS-NeRV: تمثيلات عصبية مُزَيَّنة على مستوى اللوحة للفيديوهات

Yunpeng Bai, Chao Dong, Cairong Wang
PS-NeRV: تمثيلات عصبية مُزَيَّنة على مستوى اللوحة للفيديوهات
الملخص

ندرس كيفية تمثيل الفيديو باستخدام التمثيلات العصبية الضمنية (INRs). تُستخدم غالبًا طرق INRs التقليدية الشبكات العصبية المتعددة الطبقات (MLPs) لتحويل الإحداثيات المدخلة إلى بكسلات المخرجات. بينما حاولت بعض الدراسات الحديثة إعادة بناء الصورة الكاملة مباشرة باستخدام الشبكات العصبية التلافيفية (CNNs). ومع ذلك، نجادل بأن كلا الاستراتيجيتين—التي تعتمد على المعالجة البكسلية والصورة الكاملة—ليستا ملائمتين للبيانات الفيديو. بدلًا من ذلك، نقترح حلًا يعتمد على المعالجة بالقطع (patch-wise)، يُسمى PS-NeRV، والذي يمثل الفيديو كدالة تابعة للقطع والإحداثيات المرتبطة بها. ويُرَكّز هذا النموذج بشكل طبيعي على المزايا التي تتمتع بها الطرق القائمة على الصورة الكاملة، ويحقق أداءً ممتازًا في إعادة البناء بسرعة عالية في التفكيك. يتضمن النموذج كليًا وحدات تقليدية مثل التضمين المكاني (positional embedding) والشبكات العصبية المتعددة الطبقات (MLPs) والشبكات العصبية التلافيفية (CNNs)، كما يُدخل تقنية AdaIN لتعزيز الميزات المتوسطة. وتشكل هذه التغييرات البسيطة ولكن الجوهرية مساعدة كبيرة للشبكة في التكيف مع التفاصيل عالية التردد بسهولة. وأظهرت التجارب الواسعة فعالية هذا النموذج في عدة مهام مرتبطة بالفيديو، مثل ضغط الفيديو وإعادة تعبئة الفيديو (video inpainting).

PS-NeRV: تمثيلات عصبية مُزَيَّنة على مستوى اللوحة للفيديوهات | أحدث الأوراق البحثية | HyperAI