الشبكات العصبية التكرارية الثنائية الاتجاه لتحسين الدقة المتعددة الإطارات

عادةً ما يتم التعامل مع تحسين دقة الفيديو منخفض الدقة باستخدام إما تقنية تحسين الدقة من صورة واحدة (SR) أو تقنية تحسين الدقة متعددة الإطارات. تتعامل تقنية تحسين الدقة من صورة واحدة مع كل إطار في الفيديو بشكل منفصل، مما يؤدي إلى تجاهل الاعتماد الزمني الداخلي بين الإطارات، والذي يلعب في الواقع دورًا مهمًا جدًا في تحسين دقة الفيديو. أما تقنية تحسين الدقة متعددة الإطارات، فغالبًا ما تستخرج معلومات الحركة، مثل التدفق البصري (optical flow)، لتمثيل الاعتماد الزمني، لكنها غالبًا ما تتميز بتكاليف حسابية عالية. وبما أن الشبكة العصبية التكرارية (RNN) قادرة على تمثيل المعلومات السياقية طويلة المدى في التسلسلات الزمنية بشكل جيد، نقترح شبكة تكرارية تلافيفية ثنائية الاتجاه لتحسين الدقة متعددة الإطارات بكفاءة. على عكس الشبكات التكرارية التقليدية، فإننا: 1) نستبدل الاتصالات التكرارية الكاملة الشائعة باتصالات تلافيفية تشارك في الأوزان، و2) نضيف اتصالات تلافيفية مشروطة من الطبقات المدخلة السابقة إلى الطبقة المخفية الحالية لتعزيز تمثيل الاعتماد البصري-الزمني. وبفضل قدرة الشبكة القوية على تمثيل الاعتماد الزمني، يمكن لنموذجنا تحسين دقة الفيديو ذات الحركات المعقدة وتحقيق أداءً يُعد من أفضل الأداء في مجاله. وبما أن العمليات التلافيفية ميسورة التكلفة، فإن نموذجنا يتميز بتعقيد حسابي منخفض، ويُنفّذ بسرعة تفوق بعشرات المرات مقارنةً بأساليب تحسين الدقة متعددة الإطارات الأخرى.