HyperAIHyperAI
منذ 11 أيام

NeRV: تمثيلات عصبية للفيديوهات

Hao Chen, Bo He, Hanyu Wang, Yixuan Ren, Ser-Nam Lim, Abhinav Shrivastava
NeRV: تمثيلات عصبية للفيديوهات
الملخص

نُقدّم تمثيلًا عصبيًا جديدًا للفيديوهات (NeRV) يُشَكِّل الفيديوهات باستخدام شبكات عصبية. على عكس التمثيلات التقليدية التي تُعامل الفيديوهات كسلسلة من الإطارات، نُمثّل الفيديوهات كشبكات عصبية تأخذ مؤشر الإطار كمدخل. عند إدخال مؤشر إطار معين، يُخرِج NeRV الصورة RGB المقابلة. تكمن عملية ترميز الفيديو في NeRV في تكييف شبكة عصبية مع إطارات الفيديو، بينما تتم عملية فك الترميز عبر عملية تغذية أمامية بسيطة. وباعتباره تمثيلًا ضمنيًا يُعالج الصورة كوحدة واحدة، يُخرِج NeRV الصورة كاملة، ويُظهر كفاءة كبيرة مقارنة بالتمثيلات ضمنية تعتمد على البكسل، حيث يُحسّن سرعة الترميز بنسبة 25 إلى 70 مرة، وسرعة فك الترميز بنسبة 38 إلى 132 مرة، مع تحقيق جودة فيديو أفضل. وباستخدام هذا التمثيل، يمكننا التعامل مع الفيديوهات كشبكات عصبية، مما يُبسط العديد من المهام المتعلقة بالفيديو. على سبيل المثال، تُعاني الطرق التقليدية لضغط الفيديو من خط أنابيب طويل ومعقد، تم تصميمه خصيصًا لهذه المهمة. في المقابل، باستخدام NeRV، يمكننا استخدام أي طريقة لضغط الشبكات العصبية كمُمَثِّل لضغط الفيديو، وتحقيق أداءً مُComparable مع الطرق التقليدية لضغط الفيديو القائمة على الإطارات (مثل H.264، HEVC، إلخ). إلى جانب الضغط، نُظهِر قدرة NeRV على التعميم في تصفية الضوضاء من الفيديوهات. يمكن العثور على الكود المصدري والنموذج المُدرّب مسبقًا على الرابط التالي: https://github.com/haochen-rye/NeRV.git.

NeRV: تمثيلات عصبية للفيديوهات | أحدث الأوراق البحثية | HyperAI