HyperAIHyperAI
منذ شهر واحد

شبكة التقطيع الرقيق: نموذج معماري عميق لتقدير الوضع في الفيديوهات

Jie Song; Limin Wang; Luc Van Gool; Otmar Hilliges
شبكة التقطيع الرقيق: نموذج معماري عميق لتقدير الوضع في الفيديوهات
الملخص

أثبتت شبكات الـ Deep ConvNets فعاليتها في مهمة تقدير وضعية الإنسان من صور منفردة. ومع ذلك، تظهر عدة تحديات في الحالة القائمة على الفيديو مثل الاختفاء الذاتي، وتشويش الحركة، والأوضاع غير الشائعة التي تكون قليلة أو معدومة الأمثلة عنها في مجموعات البيانات التدريبية. يمكن أن توفر المعلومات الزمنية مؤشرات إضافية عن موقع مفاصل الجسم وتساعد في تخفيف هذه المشكلات. في هذا البحث، نقترح نموذجًا معمقًا منظمًا لتقدير سلسلة من أوضاع الإنسان في مقاطع الفيديو غير المقيدة. يمكن تدريب هذا النموذج بكفاءة بطريقة شاملة (end-to-end) وهو قادر على تمثيل مظهر مفاصل الجسم والعلاقات المكانية-الزمنية بينها في آن واحد. يتم دمج المعرفة المتخصصة حول جسم الإنسان بشكل صريح في الشبكة، مما يوفر أولويات فعالة لتنظيم الهيكل العظمي وفرض التجانس الزمني. تم تقييم الهندسة الشاملة المقترحة على محكمين مستخدمين على نطاق واسع (مجموعة بيانات Penn Action ومجموعة بيانات JHMDB) لتقدير الوضعية القائمة على الفيديو. أثبتت طريقتنا تفوقها بشكل كبير على الأساليب الرائدة الحالية.请注意,这里的“end-to-end”被翻译为“شاملة”,这是在阿拉伯语中常见的翻译方式,表示从输入到输出的整个过程都是自动完成的。如果你希望保留英文术语,可以将其放在括号内,如下所示:في هذا البحث، نقترح نموذجًا معمقًا منظمًا لتقدير سلسلة من أوضاع الإنسان في مقاطع الفيديو غير المقيدة. يمكن تدريب هذا النموذج بكفاءة بطريقة شاملة (end-to-end) وهو قادر على تمثيل مظهر مفاصل الجسم والعلاقات المكانية-الزمنية بينها في آن واحد.