HyperAIHyperAI
منذ 2 أشهر

تعلم تقدير الوضع الزمني من مقاطع الفيديو ذات التسميات النادرة

Gedas Bertasius; Christoph Feichtenhofer; Du Tran; Jianbo Shi; Lorenzo Torresani
تعلم تقدير الوضع الزمني من مقاطع الفيديو ذات التسميات النادرة
الملخص

الطرق الحديثة لتقدير وضعية الأشخاص المتعددين في الفيديو تتطلب كميات كبيرة من التسميات الكثيفة. ومع ذلك، فإن تسمية كل إطار في الفيديو هي عملية مكلفة وتحتاج إلى جهد كبير. لتخفيض الحاجة إلى التسميات الكثيفة، نقترح شبكة PoseWarper التي تستفيد من مقاطع الفيديو المدربة بتسميات نادرة (كل k إطار) لتعلم كيفية أداء انتشار وضعية كثيف زمنيًا وتقديرها. بالنظر إلى زوج من إطارات الفيديو---إطار مُسَمَّى A وإطار غير مُسَمَّى B---نقوم بتدريب نموذجنا على التنبؤ بوضعية الإنسان في الإطار A باستخدام الخصائص من الإطار B عن طريق استخدام الالتواءات القابلة للتشويه لتعلم الالتواء الضمني للوضعية بين A وB. نثبت أننا يمكن أن نستفيد من شبكتنا PoseWarper المدربة لأغراض عديدة. أولاً، أثناء الاستدلال، يمكننا عكس اتجاه تطبيق شبكتنا لنشر المعلومات حول الوضعية من الإطارات المُسَمَّى يدويًا إلى الإطارات غير المُسَمَّى. هذا يجعل من الممكن توليد تسميات وضعية للفيديو بأكمله مع وجود عدد قليل فقط من الإطارات المُسَمَّى يدويًا. بالمقارنة مع طرق انتشار التسميات الحديثة المستندة إلى الجريان البصري، فإن آلية الالتواء لدينا أكثر كثافة (6 مليون مقابل 39 مليون معلمة)، وأكثر دقة (88.7٪ mAP مقابل 83.8٪ mAP). كما نظهر أنه يمكننا تحسين دقة مقدر الوضعية عن طريق تدريبه على مجموعة بيانات موسعة تم الحصول عليها بإضافة الوضعيات المنتشرة لدينا إلى العلامات اليدوية الأصلية. أخيرًا، يمكننا استخدام شبكتنا PoseWarper لتجميع المعلومات الزمنية حول الوضعية من الإطارات المجاورة أثناء الاستدلال. هذا يتيح لنظامنا تحقيق أفضل النتائج في اكتشاف الوضعية على مجموعات البيانات PoseTrack2017 وPoseTrack2018. تم توفير الرمز المصدر على الرابط التالي: https://github.com/facebookresearch/PoseWarper.请注意,为了符合阿拉伯语的书写习惯,链接地址仍然保持从左到右的书写方向。在实际排版中,可能需要对链接进行特殊处理以适应阿拉伯语的阅读习惯。

تعلم تقدير الوضع الزمني من مقاطع الفيديو ذات التسميات النادرة | أحدث الأوراق البحثية | HyperAI