دمج الكشف والتعقب لتقدير وضعية الإنسان في الفيديوهات

نُقدّم نهجًا جديدًا من الأعلى إلى الأسفل يعالج مشكلة تقدير وضعية الإنسان متعددة الأشخاص وتتبعها في الفيديوهات. على عكس النهجات من الأعلى إلى الأسفل الحالية، فإن طريقة عملنا لا تُحدَّد بأداء كاشف الأشخاص، ويمكنها التنبؤ بوضعية أفراد لم تُحدد مواقعهم بدقة. تحقق هذه القدرة من خلال نقل مواقع الأشخاص المعروفة إلى الأمام والخلف في الزمن، والبحث عن وضعيات الأطراف في تلك المناطق. يتكون نهجنا من ثلاث مكونات: (أ) شبكة تتبع القطع (Clip Tracking Network) التي تقوم بتحديد وتحديد مواقع مفاصل الجسم وتتبعها في آنٍ واحد على مقاطع فيديو صغيرة؛ (ب) أنبوب تتبع الفيديو (Video Tracking Pipeline) الذي يدمج المسارات المحدودة الطول التي تُنتجها شبكة تتبع القطع إلى مسارات ذات طول متغير؛ (ج) إجراء دمج فراغي-زمني (Spatial-Temporal Merging) يُحسّن مواقع المفاصل بناءً على مصطلحات تمهيدية فراغية وزمنية. بفضل الدقة التي تتميز بها شبكة تتبع القطع لدينا، وإجراء الدمج، فإن نهجنا يُنتج تنبؤات دقيقة جدًا بمواقع المفاصل، ويُصلح الأخطاء الشائعة في السيناريوهات الصعبة مثل التشابك الشديد بين الأشخاص. حقق نهجنا نتائج رائدة في مجال تقدير المفاصل وتتبعها، على كلا مجموعتي بيانات PoseTrack 2017 و2018، مقابل جميع النهجات من الأعلى إلى الأسفل والأسفل إلى الأعلى.