HyperAIHyperAI
منذ 2 أشهر

افعل أقل وحقق المزيد: تدريب شبكات النيورونات الم convoledة لتمييز الأفعال باستخدام صور الأفعال من الإنترنت

Shugao Ma; Sarah Adel Bargal; Jianming Zhang; Leonid Sigal; Stan Sclaroff
افعل أقل وحقق المزيد: تدريب شبكات النيورونات الم convoledة لتمييز الأفعال باستخدام صور الأفعال من الإنترنت
الملخص

في الآونة الأخيرة، تم بذل جهود لجمع ملايين الفيديوهات لتدريب نماذج CNN لأجل التعرف على الأفعال في الفيديو. ومع ذلك، فإن تجميع مثل هذه المجموعات الضخمة من الفيديوهات يتطلب جهدًا بشريًا ضخمًا، وتدريب شبكات CNN على ملايين الفيديوهات يحتاج إلى موارد حاسوبية هائلة. بالمقابل، فإن جمع صور للأفعال من الإنترنت أسهل بكثير، وتدريب النماذج على الصور يتطلب حسابات أقل بكثير. بالإضافة إلى ذلك، فإن الصور الموسومة من الإنترنت تميل إلى احتواء أوضاع أفعال تمييزية، والتي تسلط الضوء على الأجزاء التمييزية من تقدم الفيديو الزمني. نستكشف السؤال حول إمكانية استخدام صور الأفعال من الإنترنت لتدريب نماذج CNN أفضل للتعرف على الأفعال في الفيديو. قمنا بجمع 23.8 ألف صورة يدوية التصفية من الإنترنت تصور 101 فعلًا موجودًا في مجموعة بيانات UCF101 لفيديوهات الأفعال. أظهرنا أن استخدام صور الأفعال من الإنترنت مع الفيديوهات أثناء التدريب يمكن أن يؤدي إلى زيادة كبيرة في أداء نماذج CNN. ثم درسنا قابلية توسيع العملية باستخدام صور الويب التي تم الزحف إليها (غير مصفاة) لمجموعتي بيانات UCF101 وActivityNet. استبدلنا 16.2 مليون إطار فيديو بـ 393 ألف صورة غير مصفاة وحصلنا على أداء مماثل.

افعل أقل وحقق المزيد: تدريب شبكات النيورونات الم convoledة لتمييز الأفعال باستخدام صور الأفعال من الإنترنت | أحدث الأوراق البحثية | HyperAI