TesseTrack: تتبع ثلاثي الأبعاد مرن متعدد الأشخاص قابِل للتعلم من البداية إلى النهاية

ننظر إلى مهمة تقدير وتعقب الوضع الثلاثي الأبعاد لعدد من الأشخاص الذين يُرصدون عبر عدد غير محدود من مقاطع الكاميرات. نقترح نموذج "TesseTrack"، وهو نهج من نوع "أعلى إلى أسفل" جديد يعالج في نفس الوقت إعادة بناء مفاصل الجسم ثلاثية الأبعاد والارتباطات بين الأشخاص في الفضاء والزمن ضمن إطار تعلّمي متكامل ومتسلسل. ويعتمد النهج الأساسي على صيغة مبتكرة في الفضاء الزمني-المكاني تعمل في فضاء مميز (Voxelized) مشترك تم جمعه من مقاطع كاميرات فردية أو متعددة. وبعد مرحلة كشف الأشخاص، يُنتج شبكة عصبية متعددة الأبعاد (4D CNN) تمثيلات قصيرة الأمد مخصصة لكل شخص، والتي تُربط فيما بينها عبر الزمن باستخدام مُطابق قابل للتمايز. ثم تُدمج هذه التمثيلات المرتبطة وتُحوَّل إلى وضعيات ثلاثية الأبعاد من خلال عملية تفكيك (Deconvolution). تختلف هذه الصيغة المتكاملة في الفضاء والزمن عن الاستراتيجيات السابقة التي تعالج تقدير الوضع ثنائي الأبعاد، ورفع الوضع ثنائي الأبعاد إلى ثلاثي الأبعاد، وتعقب الوضع ثلاثي الأبعاد كمشاكل فرعية مستقلة، وهي عرضة للأخطاء عند حلها بشكل منفصل. علاوةً على ذلك، على عكس الطرق السابقة، يُعدّ "TesseTrack" مقاومًا للتغيرات في عدد مقاطع الكاميرات، ويحقق نتائج ممتازة حتى عند توفر مشهد واحد فقط أثناء التقييم. تُظهر التقييمات الكمية لدقة إعادة بناء الوضع ثلاثي الأبعاد على المعايير القياسية تحسينات كبيرة مقارنة بأفضل النماذج الحالية. كما يُظهر تقييم تعقب الوضع ثلاثي الأبعاد للأشخاص المتعددين في إطار التقييم الجديد تفوق "TesseTrack" على النماذج القوية السابقة.