اكتشاف الحدود بين اللقطات بسرعة مضحكة باستخدام الشبكات العصبية الكاملة التلافيفية

اكتشاف حدود المشاهد (SBD) هو مكون مهم في العديد من مهام تحليل الفيديو، مثل التعرف على الحركات، فهرسة الفيديو، التلخيص والتحرير. الأبحاث السابقة عادةً ما استخدمت مزيجًا من الخصائص الأولية مثل توزيعات الألوان، بالاشتراك مع نماذج بسيطة مثل آلات المتجهات الداعمة (SVMs). بدلاً من ذلك، نقترح تعلم اكتشاف المشاهد بشكل شامل، من البكسل إلى حدود المشاهد النهائية. لتدريب هذا النموذج، نعتمد على رؤيتنا بأن جميع حدود المشاهد يتم إنشاؤها. لذلك، قمنا بإنشاء مجموعة بيانات تحتوي على مليون إطار وانتقالات تم توليدها تلقائيًا مثل القطع (cuts)، الذوبان (dissolves) والتلاشي (fades). للتحليل الكفء لساعات من الفيديوهات، نقترح استخدام شبكة عصبية تقنية الالتفاف (CNN) التي تكون تقنية الالتفاف كاملة زمنيًا، مما يسمح باستخدام سياق زمني كبير دون الحاجة إلى معالجة الإطارات بشكل متكرر. باستخدام هذه الهندسة، تحصل طريقتنا على أفضل النتائج المتاحة حاليًا بينما تعمل بسرعة غير مسبوقة تزيد عن 120 ضعف السرعة الزمنية الحقيقية.