Command Palette
Search for a command to run...
كشف حدود اللقطة بدقة عالية وبسرعة وبدون حجم كبير من خلال الشبكات العصبية التلافيفية الزمانية المكانية
كشف حدود اللقطة بدقة عالية وبسرعة وبدون حجم كبير من خلال الشبكات العصبية التلافيفية الزمانية المكانية
الملخص
كُلّف الكشف عن حدود المشاهد (SBD) بدورٍ مهم في مرحلة ما قبل المعالجة الخاصة بالفيديوهات المُعدّلة. وفي هذا السياق، يتم تصنيف كل قطعة من الإطارات إما على أنها انتقال حاد، أو تدريجي، أو لا يوجد انتقال على الإطلاق. تحلّل التقنيات الحالية للكشف عن حدود المشاهد السمات المُصممة يدويًا، وتحاول تحسين دقة الكشف وسرعة المعالجة في آنٍ واحد. ولكن الحسابات الثقيلة الناتجة عن تدفق البصريات (optical flow) تُعيق تحقيق هذا الهدف. ولتحقيق هذا الهدف، نقدّم تقنية جديدة للكشف عن حدود المشاهد تعتمد على الشبكات العصبية التلافيفية الزمانية-المكانية (Spatio-temporal Convolutional Neural Networks - CNN). وبما أن المجموعات الحالية من البيانات ليست كبيرة بما يكفي لتدريب شبكة CNN دقيقة للكشف عن حدود المشاهد، نقدّم مجموعة بيانات جديدة تتضمن أكثر من 3.5 مليون إطار يمثّل انتقالات حادة وتدريجية. وتم إنشاء هذه الانتقالات بشكل اصطناعي باستخدام نماذج تركيب الصور (image compositing models). كما تتضمّن مجموعتنا بيانات إضافية تبلغ 70,000 إطارًا تمثل حالات صعبة (hard-negative) من عدم وجود انتقال، وهي حالات ذات أهمية كبيرة. قمنا بأكبر تقييم على الإطلاق لخوارزمية واحدة للكشف عن حدود المشاهد، باستخدام بيانات حقيقية واصطناعية، وشمل التقييم أكثر من 4.85 مليون إطار. وبالمقارنة مع التقنيات المتطورة الحالية، نُظهر أداءً أفضل في كشف الانتقالات التدرّجية من نوع "الاندماج" (dissolve)، ونُقدّم أداءً تنافسيًا في الكشف عن الانتقالات الحادة، ونُحقّق تحسينًا ملحوظًا في الكشف عن الانتقالات من نوع "المسح" (wipes). علاوةً على ذلك، نُحقّق تسريعًا يصل إلى 11 مرة مقارنةً بالتقنيات المتطورة الحالية.