التصنيف السريع لانتقالات اللقطات الفيديوية باستخدام النماذج الهيكلية العميقة

كشف انتقالات المشاهد في الفيديو هو خطوة معالجة مهمة وحاسمة في تحليل الفيديو. الدراسات السابقة كانت مقتصرة على كشف التغييرات المفاجئة في المحتوى بين الإطارات من خلال قياس التشابه، وكان يتم استخدام العمليات متعددة المقاييس بشكل واسع للتعامل مع انتقالات بأطوال مختلفة. ومع ذلك، فإن تحديد موقع الانتقالات التدريجية لا يزال غير مستكشف بشكل كافٍ بسبب الشبه البصري العالي بين الإطارات المجاورة. الانتقالات المفاجئة للمشاهد هي انقطاعات دلالية حادة، بينما تحتوي الانتقالات التدريجية للمشاهد على أنماط فضائية-زمنية منخفضة المستوى ناجمة عن تأثيرات الفيديو بالإضافة إلى الانقطاعات الدلالية التدريجية، مثل الذوبان (dissolve). لمعالجة هذه المشكلة، نقترح شبكة مهيكلة قادرة على كشف هذين النوعين من الانتقالات باستخدام نماذج مستهدفة منفصلة. عند النظر في توازن الأداء والسرعة، صممنا إطارًا ذكيًا. يمكن للطريقة المقترحة تحقيق سرعة زمنية حقيقية بمقدار 30 ضعفًا باستخدام بطاقة رسوميات TITAN واحدة. أظهرت التجارب على قاعدة بيانات TRECVID07 وRAI العامة أن طريقتنا تتفوق على أفضل الأساليب الحالية. لتدريب كاشف انتقال المشاهد عالي الأداء، قدمنا قاعدة بيانات جديدة تُسمى ClipShots، والتي تحتوي على 128,636 انتقالًا مفاجئًا و38,120 انتقالًا تدريجيًا من 4,039 فيديو عبر الإنترنت. تم جمع ClipShots عمداً من مقاطع فيديو قصيرة لتتضمن حالات صعبة أكثر ناجمة عن هزاز الكاميرا اليدوية، حركات الأجسام الكبيرة، والاخفاء (occlusion).