CNN في MRF: تقسيم الأشياء في الفيديو من خلال الاستدلال في MRF زماني-مكاني من الرتبة العليا المستند إلى CNN

يتناول هذا البحث مشكلة تقسيم الأشياء في الفيديو، حيث يتم تقديم القناع الأولي للشيء في الإطار الأول من الفيديو المدخل. نقترح نموذجًا جديدًا لحقل عشوائي ماركوفي (MRF) معرّف على البكسلات لمعالجة هذه المشكلة. على عكس النماذج التقليدية لـ MRF، يتم ترميز الارتباطات المكانية بين البكسلات في نموذجنا بواسطة شبكة عصبية اتصالية (CNN). بصفة خاصة، بالنسبة لشيء معين، يمكن التنبؤ باحتمالية تصنيف مجموعة من البكسلات المجاورة مكانياً بواسطة شبكة CNN مدربة لهذا الشيء المحدد. نتيجة لذلك، يمكن لنماذج CNN أن تمثل ضمنياً ارتباطات أعلى وأغنى بين البكسلات في المجموعة. باستخدام الارتباطات الزمنية التي تحدد بواسطة الجريان البصري، يجمع النموذج الناتج MRF بين الدلائل المكانية والزمنية لحل مشكلة تقسيم الأشياء في الفيديو. ومع ذلك، فإن إجراء الاستدلال في نموذج MRF صعب للغاية بسبب الارتباطات ذات الرتبة العالية جداً. بهدف ذلك، نقترح خوارزمية جديدة مدمجة مع CNN لأداء استدلال تقريبي في MRF. تتقدم هذه الخوارزمية بالتناوب بين خطوة دمج زمني وخطوة تغذية أمامية لـ CNN. عند التهيئة باستخدام شبكة CNN قطبية واحدة تعتمد على الشكل الخارجي، يتفوق نموذجنا على المشاركات الفائزة في تحدي DAVIS 2017 دون اللجوء إلى الجمع بين النماذج أو أي كاشفات مخصصة.