نموذج خلفية عميقة مع كاميرا متحركة

في تحليل الفيديو، توجد العديد من التطبيقات للنماذج الخلفية مثل فصل الخلفية عن المقدمة، اكتشاف التغييرات، اكتشاف الشذوذ، تتبع الأهداف وغيرها. ومع ذلك، بينما يعتبر تعلم مثل هذه النموذج في فيديو تم التقاطه بواسطة كاميرا ثابتة مهمة محسومة نسبيًا، فإن النجاح في حالة نموذج الخلفية للكاميرا المتحركة (MCBM) كان متواضعًا للغاية بسبب التحديات الخوارزمية وتحديات القابلية للتوسع التي تنشأ نتيجة حركة الكاميرا. لذلك، تكون النماذج الحالية لـ MCBM محدودة في نطاقها وأنواع حركة الكاميرا التي تدعمها. كما أن هذه العقبات عرقلت استخدام حلول شاملة تعتمد على التعلم العميق (DL) في هذه المهمة غير المراقبة. بالإضافة إلى ذلك، غالبًا ما تقوم النماذج الحالية لـ MCBM بنمذجة الخلفية إما في مجال صورة بانورامية عادةً ما تكون كبيرة أو بطريقة مستمرة. للأسف، يخلق الخيار الأول عدة مشاكل، بما في ذلك القابلية السيئة للتوسع، بينما يمنع الخيار الثاني القدرة على التعرف على الاستفادة من الحالات التي تعيد فيها الكاميرا زيارة أجزاء سابقة من المشهد.يقترح هذا البحث طريقة جديدة تسمى DeepMCBM والتي تقضي على جميع المشكلات المذكورة أعلاه وتحقق نتائج رائدة في المجال. بالتحديد، نحدد أولاً الصعوبات المرتبطة بتوفيق الإطارات الفيديوية بشكل مشترك بشكل عام وفي إعداد التعلم العميق بشكل خاص. بعد ذلك، نقترح استراتيجية جديدة للتوفيق المشترك تتيح لنا استخدام شبكة المحول المكاني بدون تنظيم أو أي شكل من أشكال التهيئة المتخصصة (والغير قابلة للمفاضلة). عند الجمع بين هذه الشبكة ومُشفِّر ذاتي مشروط بلحظات مركزية ثابتة وغير ملتويَّة (مُستخرجة من التوفيق المشترك)، فإن هذا يؤدي إلى نموذج خلفية لكاميرا متحركة شامل وخالي من التنظيم يدعم مجموعة واسعة من حركات الكاميرا ويتوسع بشكل جيد. نوضح فائدة DeepMCBM على مجموعة متنوعة من مقاطع الفيديو، بما في ذلك تلك التي تتجاوز نطاق الأساليب الأخرى. يمكن الوصول إلى شفرتنا البرمجية عبر الرابط: https://github.com/BGU-CS-VIL/DeepMCBM .