HyperAIHyperAI
منذ 16 أيام

FFNeRV: تمثيلات عصبية على مستوى الإطار موجهة بالتدفق للفيديوهات

Joo Chan Lee, Daniel Rho, Jong Hwan Ko, Eunbyung Park
FFNeRV: تمثيلات عصبية على مستوى الإطار موجهة بالتدفق للفيديوهات
الملخص

أظهرت الحقول العصبية، المعروفة أيضًا باسم التمثيلات العصبية الضمنية القائمة على الإحداثيات، قدرة ملحوظة على تمثيل الإشارات وتمثيلها وإدارتها في أشكال مختلفة. ومع ذلك، فإن طريقة التمثيل التي تقوم بربط إحداثيات بكسلات معينة بألوان RGB قد أظهرت أداءً ضعيفًا نسبيًا من حيث ضغط البيانات، بالإضافة إلى تقارب بطيء وسرعة استنتاج بطيئة عند تمثيل الفيديو. في المقابل، ظهرت مؤخرًا طريقة تمثيل إطارية (frame-wise) للفيديو، التي تقوم بربط إحداثي زمني بجميع بكسلات الإطار الكامل، كطريقة بديلة لتمثيل الفيديو، وحققت تحسنًا في معدلات الضغط وسرعة التشفير. وعلى الرغم من إمكاناتها الواعدة، إلا أنها ما زالت لم تصل إلى مستوى أداء خوارزميات ضغط الفيديو الرائدة حاليًا. في هذا العمل، نقترح طريقة جديدة تُسمى FFNeRV، والتي تُدمج معلومات التدفق (flow) في التمثيلات الإطارية، بهدف استغلال التكرار الزمني بين الإطارات في الفيديو، مستوحاة من تقنيات ضغط الفيديو القياسية. بالإضافة إلى ذلك، نقدّم بنية معمّقة بالكامل باستخدام شبكة زمنية أحادية البعد، مما يُحسّن استمرارية الخصائص المكانية. أظهرت النتائج التجريبية أن FFNeRV تحقق أفضل أداء في ضغط الفيديو والاستيفاء بين الإطارات مقارنةً بالطرق التي تعتمد على التمثيلات الإطارية أو الحقول العصبية. ولتقليل حجم النموذج بشكل أكبر، نقترح بنية معمّقة أكثر كفاءة باستخدام التحويلات المجمعة (group convolutions) والتحويلات النقطية (pointwise convolutions). وباستخدام تقنيات ضغط النموذج، بما في ذلك التدريب المُدرك للتحجيم (quantization-aware training) وشفرة الانتروبيا (entropy coding)، تتفوّق FFNeRV على خوارزميات ضغط الفيديو القياسية الواسعة الانتشار (مثل H.264 وHEVC)، وتُحقق أداءً يوازي أحدث الخوارزميات الرائدة في مجال ضغط الفيديو.

FFNeRV: تمثيلات عصبية على مستوى الإطار موجهة بالتدفق للفيديوهات | أحدث الأوراق البحثية | HyperAI