اكتشاف الحدود الفورية على نطاق واسع وبسرعة ودقة من خلال شبكات العصب المتكررة المكانية-الزمانية

كشف حدود اللقطات (SBD) هو خطوة مهمة في معالجة الفيديو كعملية تمهيدية. هنا، يتم تصنيف كل قطعة من الإطارات على أنها انتقال حاد أو تدريجي أو عدم وجود انتقال. تقنيات SBD الحالية تحلل الخصائص المصنوعة يدويًا وتسعى إلى تحسين دقة الكشف وسرعة المعالجة. ومع ذلك، فإن الحسابات الثقيلة لتدفق الضوء (optical flow) تحول دون تحقيق هذا الهدف. لتحقيق هذا الهدف، نقدم تقنية SBD تعتمد على الشبكات العصبية التلافيفية الزمانية-المكانية (CNN). نظرًا لأن مجموعات البيانات الحالية ليست كبيرة بما يكفي لتدريب شبكات SBD دقيقة، فقد قدمنا مجموعة بيانات جديدة تحتوي على أكثر من 3.5 مليون إطار للانتقالات الحادة والتدريجية. يتم إنشاء هذه الانتقالات بشكل صناعي باستخدام نماذج تركيب الصور. تحتوي مجموعتنا من البيانات على إطارات إضافية تبلغ 70,000 إطار للانتقالات السلبية الصعبة التي لا يوجد فيها انتقال. نقوم بأكبر تقييم حتى الآن لخوارزمية SBD واحدة، على بيانات حقيقية وصناعية، تحتوي على أكثر من 4.85 مليون إطار. عند المقارنة مع أحدث التقنيات، فإننا نتفوق في كشف الانتقالات التدريجية بالذوبان (dissolve)، ونحقق أداءً تنافسيًا في الكشف عن الانتقالات الحادة وتحسينًا كبيرًا في الكشف عن المسح (wipes). بالإضافة إلى ذلك، نحن أسرع بمقدار يصل إلى 11 مرة من أحدث التقنيات.