تعلم ذاتي لتقاطع الحركة

الحلول الرائدة حاليًا لتقاطع الحركة من كاميرا واحدة تعتمد على التحسين: فهي تحسن معلمات نموذج إنسان ثلاثي الأبعاد بحيث يتطابق إعادة تصويره مع القياسات في الفيديو (مثل تقسيم الشخص، تدفق الضوء البصري، اكتشاف النقاط الرئيسية وما إلى ذلك). النماذج التحسينية عرضة للحدود المحلية الدنيا. وقد كان هذا العائق الذي أدى إلى استخدام خلفيات نظيفة مثل خلفية الشاشة الخضراء أثناء التقاط البيانات، أو المبادرة اليدوية، أو التحويل إلى استخدام عدة كاميرات كمصدر مدخلات. في هذه الدراسة، نقترح نموذجًا لتقاطع الحركة يستند إلى التعلم للإدخال من كاميرا واحدة. بدلاً من تحسين معلمات الشبكة العصبية والهيكل مباشرة، يقوم نموذجنا بتحسين أوزان شبكة عصبية تتوقع شكلًا ثلاثي الأبعاد وتكوينات الهيكل العظمي بناءً على فيديو RGB أحادي العدسة. يتم تدريب نموذجنا باستخدام مزيج من الإشراف القوي من البيانات الصناعية والإشراف الذاتي من خلال التصوير المميز لـ (أ) نقاط الهيكل العظمي الرئيسية، (ب) حركة الشبكة ثلاثية الأبعاد الكثيفة، و(ج) تقسيم الخلفية-الإنسان في إطار شامل. بشكل تجريبي، نظهر أن نموذجنا يجمع بين أفضل ما في العالمين الإشراف بالتعلم والتحسين في وقت الاختبار: حيث يقوم الإشراف بالتعلم بتوفير بداية جيدة لمعلمات النموذج، مما يضمن وجود بداية جيدة للوضع والسطح عند الاختبار دون الحاجة إلى جهد يدوي. بينما يسمح الإشراف الذاتي عن طريق الرجوع الخلفي عبر التصوير المميز (بالتكيف غير المشرف) للنموذج مع بيانات الاختبار ويقدم تناسبًا أكثر دقة بكثير من النموذج المدرب مسبقًا والمثبت. نوضح أن النموذج المقترح يتحسن مع الخبرة ويتجه نحو حلول ذات أخطاء قليلة حيث تفشل طرق التحسين السابقة.