HyperAIHyperAI

Command Palette

Search for a command to run...

التدريب المسبق على نطاق واسع مع إشراف ضعيف لتمييز الأنشطة في الفيديو

Deepti Ghadiyaram Matt Feiszli Du Tran Xuetong Yan Heng Wang Dhruv Mahajan

الملخص

القواعد البيانات الفيديوية الحالية التي تخضع للإشراف الكامل تتكون من بضعة مئات الآلاف من مقاطع الفيديو وأقل من ألف تصنيف خاص بالمنطقة. وهذا يعيق التقدم نحو هياكلات فيديو متقدمة. تقدم هذه الورقة دراسة شاملة حول استخدام كميات كبيرة من مقاطع الفيديو على الويب لتدريب نماذج الفيديو مسبقًا بهدف التعرف على الأفعال. النتيجة التجريبية الرئيسية التي توصلنا إليها هي أن التدريب المسبق على نطاق كبير جدًا (أكثر من 65 مليون فيديو)، رغم وجود ضوضاء في مقاطع الفيديو وهاشتاغات وسائل التواصل الاجتماعي، يحسن بشكل كبير الحالة الراهنة في ثلاثة قواعد بيانات عامة صعبة للتعرف على الأفعال.بالإضافة إلى ذلك، نقوم بفحص ثلاث أسئلة في بناء قواعد بيانات الفيديو للأفعال تحت إشراف ضعيف. أولاً، بما أن الأفعال تتضمن تفاعلات مع الأجسام، كيف يجب بناء فضاء تصنيف مسبق يتكون من فعل وجسم لتحقيق أكبر استفادة من التعلم النقل؟ ثانيًا، تؤدي نماذج القائمة على الإطارات أداءً جيدًا للغاية في التعرف على الأفعال؛ هل يعتبر التدريب المسبق للخصائص المرئية الجيدة كافيًا أم أن التدريب المسبق للخصائص الزمانية-المكانية له قيمة لتحقيق أفضل تعلم نقل؟ ثالثًا، تكون الأفعال عمومًا أقل تحديدًا في مقاطع الفيديو الطويلة مقارنة بمقاطع الفيديو القصيرة؛ بما أن تصنيفات الأفعال يتم تقديمها على مستوى الفيديو، كيف يمكن اختيار مقاطع الفيديو لتحقيق أفضل أداء، مع وجود ميزانية ثابتة من حيث عدد أو دقائق مقاطع الفيديو؟


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp