DeciWatch: قاعدة بسيطة لتحقيق كفاءة 10 أضعاف في تقدير الوضعية ثنائية وثلاثية الأبعاد

يقترح هذا البحث إطارًا أساسيًا بسيطًا لتقدير وضع الإنسان ثنائي الأبعاد وثلاثي الأبعاد بناءً على الفيديو يمكنه تحقيق تحسين في الكفاءة بمقدار عشر مرات مقارنة بالأعمال الحالية دون أي تدهور في الأداء، ويُطلق عليه اسم DeciWatch. على عكس الحلول الحالية التي تقدير وضع كل إطار في الفيديو، يُقدم DeciWatch إطارًا بسيطًا ومعتبرًا للعينة-التنقية-الاستعادة الذي يراقب فقط الإطارات المُعينة بشكل نادر، مستفيداً من استمرارية حركات الإنسان والتمثيل الخفيف لوضع الجسم. تحديداً، يقوم DeciWatch بعينة موحدة تقل عن 10% من إطارات الفيديو للتقدير التفصيلي، ثم تنقية الوضعيات ثنائية الأبعاد وثلاثية الأبعاد المقدرة باستخدام هندسة Transformer فعالة، وأخيراً استعادة باقي الإطارات بدقة باستخدام شبكة أخرى تعتمد على Transformer. تؤكد النتائج التجريبية الشاملة على ثلاث مهام لتقدير وضع الإنسان بناءً على الفيديو واستعادة شبكات الجسم مع أربعة قواعد بيانات كفاءة وفعالية DeciWatch. يمكن الحصول على الرمز البرمجي من https://github.com/cure-lab/DeciWatch.