FODVid: اكتشاف الأشياء بدلالة التدفق في الفيديوهات

فصل الأشياء في الفيديو يعتبر تحديًا بسبب التفاصيل الدقيقة مثل تشويش الحركة، الانزياج البصري، الإخفاء، التغيرات في الإضاءة وغيرها. بدلاً من معالجة هذه التفاصيل بشكل منفصل، نركز على بناء حل عام يتجنب الانطباع الزائد على التعقيدات الفردية. سيُسهم هذا الحل أيضًا في توفير الموارد الهائلة التي تنطوي عليها عملية تسمية الفيديوهات من قبل البشر. لحل مشكلة فصل الأشياء في الفيديو (VOS) في بيئة غير مراقبة، نقترح أنبوبًا جديدًا (FODVid) يستند إلى فكرة توجيه نواتج الفصل باستخدام القطع الرسومي الموجه بالتدفق والثبات الزمني. بشكل أساسي، نقوم بتصميم نموذج فصل يدمج بين الشبهات داخل الإطار وشبهات التدفق، واستمرارية الأشياء المعنية بين الإطارات. نجري تحليلًا تجريبيًا شاملًا لمنهجيتنا البسيطة على معيار الفيديو القياسي DAVIS16. رغم بساطتها، فإن طريقة عملنا تنتج نتائج مماثلة (في نطاق يتراوح حوالي 2 mIoU) للطرق الرائدة الحالية في VOS غير المراقبة. البساطة والفعالية لتقنيتنا تفتح آفاقًا جديدة للبحث في مجال الفيديو.注释:- "تشويش الحركة" (motion blurring)- "الانزياج البصري" (parallax)- "الإخفاء" (occlusions)- "التغيرات في الإضاءة" (changes in illumination)- "فصل الأشياء في الفيديو" (Video Object Segmentation - VOS)- "القطع الرسومي الموجه بالتدفق والثبات الزمني" (flow-guided graph-cut and temporal consistency)- "DAVIS16" هو اسم معيار قياسي للفيديو- "mIoU" هو اختصار لـ mean Intersection over Union