تقدير التوجيه غير المُراقب ضعيفًا والخالي من القيود الفيزيائية

يُعدّ التحدي الرئيسي أمام تقدير الاتجاه البصري غير المقيد جسديًا هو الحصول على بيانات تدريب مُوسَّعة بملصقات ثلاثية الأبعاد للاتجاه البصري في السياقات المفتوحة والخارجية. وعلى النقيض من ذلك، تتوفر مقاطع فيديو كثيرة لتفاعلات بشرية في بيئات غير مقيدة، ويمكن تسميتها بسهولة أكبر باستخدام علامات نشاط على مستوى الإطار (frame-level activity labels). في هذه الدراسة، نعالج مشكلة غير مُستكشفة سابقًا، وهي تقدير الاتجاه البصري المُراقب ضعيفًا من مقاطع فيديو التفاعلات البشرية. ونستفيد من الملاحظة التي تشير إلى وجود قيود هندسية قوية مرتبطة بالاتجاه البصري عند تنفيذ النشاط المعروف بـ "النظر إلى بعضهم البعض" (Looking At Each Other - LAEO). وللحصول على مراقبة ثلاثية الأبعاد للاتجاه البصري من خلال علامات LAEO، نقترح خوارزمية تدريب، إلى جانب عدة دوال خسارة جديدة مصممة خصيصًا لهذا المهمة. وباستخدام المراقبة الضعيفة المستمدة من مجموعتي بيانات نشاط كبيرتين على مستوى العالم، وهما CMU-Panoptic وAVA-LAEO، نُظهر تحسنًا ملحوظًا في (أ) دقة تقدير الاتجاه البصري شبه المُراقب، و(ب) القدرة على التعميم عبر المجالات المختلفة على معيار Gaze360 القياسي لتقدير الاتجاه البصري في البيئات المفتوحة غير المقيدة جسديًا. ونُفصح عن كودنا المصدر في الرابط التالي: https://github.com/NVlabs/weakly-supervised-gaze.