استخراج العلاقات بين الترابطات عبر الإطارات لتقسيم الدلالة في الفيديو

جوهر التجزئة الدلالية للفيديو (VSS) يتمثل في كيفية استغلال المعلومات الزمنية للتنبؤ. وقد ركّزت الجهود السابقة بشكل رئيسي على تطوير تقنيات جديدة لحساب الترابطات بين الإطارات المختلفة، مثل التدفق البصري (optical flow) والانتباه (attention). بدلًا من ذلك، يقدّم هذا البحث مساهمة من زاوية مختلفة من خلال استكشاف العلاقات بين الترابطات بين الإطارات، مما يتيح تجميعًا أفضل للمعلومات الزمنية. ونستكشف العلاقات بين الترابطات من جهتين: الارتباطات الذاتية ذات المقياس الواحد، والعلاقات متعددة المقاييس. مستلهمين من معالجة الميزات التقليدية، نقترح طريقة تحسين الترابطات ذات المقياس الواحد (SAR) وطريقة تجميع الترابطات متعددة المقاييس (MAA). ولتمكين تنفيذ MAA بشكل عملي، نقترح استراتيجية التمويه المختارة للرموز (STM)، التي تُستخدم لاختيار مجموعة فرعية من الرموز المرجعية المتسقة عبر المقاييس المختلفة عند حساب الترابطات، مما يُحسّن أيضًا كفاءة طريقتنا. في النهاية، تُستخدم الترابطات بين الإطارات المُعزّزة بواسطة SAR وMAA لجمع المعلومات الزمنية بشكل تكيفي. تُظهر التجارب التي أجريناها أن الطريقة المقترحة تتفوّق على أحدث الطرق في مجال التجزئة الدلالية للفيديو. يُمكن الوصول إلى الكود المصدر بشكل عام عبر الرابط التالي: https://github.com/GuoleiSun/VSS-MRCFA