HyperAIHyperAI
منذ 2 أشهر

آلة الفعل: إعادة التفكير في التعرف على الأفعال في مقاطع الفيديو المقصوصة

Zhu, Jiagang ; Zou, Wei ; Xu, Liang ; Hu, Yiming ; Zhu, Zheng ; Chang, Manyu ; Huang, Junjie ; Huang, Guan ; Du, Dalong
آلة الفعل: إعادة التفكير في التعرف على الأفعال في مقاطع الفيديو المقصوصة
الملخص

الطرق الحالية في التعرف على الأنشطة في الفيديو غالبًا ما لا تفصل جسم الإنسان عن البيئة وتتعرض بسهولة للتكيف الزائد مع المشاهد والأجسام. في هذا البحث، نقدم إطارًا مفهوميًا بسيطًا وعامًا وأداءً عاليًا للتعرف على الأنشطة في مقاطع الفيديو المقتطعة، بهدف النمذجة المتمحورة حول الشخص. الطريقة المعروفة باسم آلة العمل (Action Machine) تأخذ كمدخلات مقاطع الفيديو التي تم تقليمها بواسطة صناديق حدودية للشخص. يتم توسيع شبكة الاقتران ثلاثية الأبعاد المنفوخة (Inflated 3D ConvNet - I3D) بإضافة فرع لتقدير وضعية الجسم البشري وشبكة اقتران ثنائية الأبعاد (2D CNN) للتعرف على الأنشطة بناءً على الوضعية، مما يجعلها سريعة التدريب والاختبار. يمكن لآلة العمل الاستفادة من التدريب متعدد المهام للتعرف على الأنشطة وتقدير الوضعية، والدمج بين التوقعات المستخرجة من الصور ثنائية الأبعاد والوضعيات. على مجموعة بيانات NTU RGB-D، تحقق آلة العمل أفضل أداء حاليًا بمعدل دقة أولى يبلغ 97.2٪ و94.3٪ في اختبارات العرض المتقاطع والأشخاص المختلفين على التوالي. كما تحقق آلة العمل أداءً تنافسيًا على ثلاثة مجموعات بيانات أخرى أصغر للتعرف على الأنشطة: Northwestern UCLA Multiview Action3D، MSR Daily Activity3D وUTD-MHAD. سيتم توفير الكود.希望这个翻译符合您的要求。如果有任何需要调整的地方,请随时告诉我。