HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف على الأفعال في الوقت الحقيقي باستخدام شبكات CNN المحسنة بأشعة الحركة

Bowen Zhang; Limin Wang; Zhe Wang; Yu Qiao; Hanli Wang

الملخص

أظهرت الهندسة المعمارية ذات التيارين العميق أداءً ممتازًا في التعرف على الأفعال المستندة إلى الفيديو. الخطوة الأكثر تكلفة من الناحية الحسابية في هذا النهج تأتي من حساب الجريان البصري، مما يمنعه من أن يكون في الوقت الحقيقي. تسريع هذه الهندسة المعمارية هو هدف هذا البحث من خلال استبدال الجريان البصري بمتغير الحركة، الذي يمكن الحصول عليه مباشرة من الفيديوهات المضغوطة دون أي حساب إضافي. ومع ذلك، فإن متغير الحركة يفتقر إلى الهياكل الدقيقة ويحتوي على أنماط حركة ضوضائية وغير دقيقة، مما يؤدي إلى تدهور واضح في أداء التعرف. الرؤية الرئيسية لدينا للتخفيف من هذه المشكلة هي أن الجريان البصري ومتغير الحركة مرتبطان بشكل جوهري. نقل المعرفة التي تم تعلمها باستخدام شبكة الجريان البصري العصبية (CNN) إلى شبكة متغير الحركة العصبية (CNN) يمكن أن يعزز بشكل كبير أداء الأخيرة. تحديدًا، نقدم ثلاث استراتيجيات لهذه الغاية: نقل التحديد الأولي، ونقل الإشراف، ودمجهما. تظهر النتائج التجريبية أن طرقنا تحقق أداءً مماثلًا لأفضل الأساليب المعروفة حتى الآن، بينما يمكن لطرقنا معالجة 390.7 إطارًا في الثانية، وهو ما ي快三倍 (27 times) أسرع من الطريقة الثنائية التقليدية.注:在最后一句中,“快三倍”是中文,不是原文的一部分。正确的阿拉伯语翻译应该是“27 مرة أسرع”。以下是修正后的版本:تظهر النتائج التجريبية أن طرقنا تحقق أداءً مماثلًا لأفضل الأساليب المعروفة حتى الآن، بينما يمكن لطرقنا معالجة 390.7 إطارًا في الثانية، وهو ما يعادل 27 مرة أسرع من الطريقة الثنائية التقليدية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp