الاستخلاص الدلتا لمعالجة الفيديو بكفاءة

تهدف هذه الورقة إلى تسريع معالجة تدفقات الفيديو، مثل كشف الكائنات والتقسيم الدلالي، من خلال الاستفادة من التكرار الزمني الموجود بين إطارات الفيديو. بدلًا من نقل وتشويه الميزات باستخدام التوافق الحركي، مثل التدفق البصري، نقترح نموذجًا جديدًا لنقل المعرفة يُسمى "الاستخلاص التفاضلي" (Delta Distillation). في هذا الاقتراح، يتعلم الطالب التغيرات التي تطرأ على الميزات الوسيطة للمعلم مع مرور الزمن. ونُظهر أن هذه التغيرات الزمنية يمكن استخلاصها بشكل فعّال بفضل التكرار الزمني الموجود داخل إطارات الفيديو. أثناء الاستنتاج، يعمل المعلم والطالب معًا لتوفير التنبؤات: حيث يوفر المعلم تمثيلات أولية تم استخلاصها فقط من الإطار الرئيسي (key-frame)، بينما يقوم الطالب باستخلاص التقديرات التكرارية وتطبيق التغيرات (الدلتا) على الإطارات التالية. علاوةً على ذلك، نأخذ بعين الاعتبار خيارات تصميم مختلفة لتعلم هيكل طالب مثالي، بما في ذلك بحث قابل للتعلم من الطرفين (end-to-end learnable architecture search). وبناءً على تجارب واسعة على مجموعة متنوعة من الهياكل، بما في ذلك أكثر الهياكل كفاءة، نُظهر أن الاستخلاص التفاضلي يُشكّل حالة جديدة من الحالات البارزة (state-of-the-art) من حيث التوازن بين الدقة والكفاءة في التقسيم الدلالي وكشف الكائنات في الفيديو. وأخيرًا، نُظهر أن الاستخلاص التفاضلي، كمنتج ثانوي، يُحسّن من الاتساق الزمني لنموذج المعلم.