التعرف على الأفعال في الوقت الحقيقي باستخدام شبكات CNN المحسنة بأشعة الحركة

أظهرت الهندسة المعمارية ذات التيارين العميق أداءً ممتازًا في التعرف على الأفعال المستندة إلى الفيديو. الخطوة الأكثر تكلفة من الناحية الحسابية في هذا النهج تأتي من حساب الجريان البصري، مما يمنعه من أن يكون في الوقت الحقيقي. تسريع هذه الهندسة المعمارية هو هدف هذا البحث من خلال استبدال الجريان البصري بمتغير الحركة، الذي يمكن الحصول عليه مباشرة من الفيديوهات المضغوطة دون أي حساب إضافي. ومع ذلك، فإن متغير الحركة يفتقر إلى الهياكل الدقيقة ويحتوي على أنماط حركة ضوضائية وغير دقيقة، مما يؤدي إلى تدهور واضح في أداء التعرف. الرؤية الرئيسية لدينا للتخفيف من هذه المشكلة هي أن الجريان البصري ومتغير الحركة مرتبطان بشكل جوهري. نقل المعرفة التي تم تعلمها باستخدام شبكة الجريان البصري العصبية (CNN) إلى شبكة متغير الحركة العصبية (CNN) يمكن أن يعزز بشكل كبير أداء الأخيرة. تحديدًا، نقدم ثلاث استراتيجيات لهذه الغاية: نقل التحديد الأولي، ونقل الإشراف، ودمجهما. تظهر النتائج التجريبية أن طرقنا تحقق أداءً مماثلًا لأفضل الأساليب المعروفة حتى الآن، بينما يمكن لطرقنا معالجة 390.7 إطارًا في الثانية، وهو ما ي快三倍 (27 times) أسرع من الطريقة الثنائية التقليدية.注:在最后一句中,“快三倍”是中文,不是原文的一部分。正确的阿拉伯语翻译应该是“27 مرة أسرع”。以下是修正后的版本:تظهر النتائج التجريبية أن طرقنا تحقق أداءً مماثلًا لأفضل الأساليب المعروفة حتى الآن، بينما يمكن لطرقنا معالجة 390.7 إطارًا في الثانية، وهو ما يعادل 27 مرة أسرع من الطريقة الثنائية التقليدية.