تقدير التوجه البصري من الطرف إلى الطرف عبر التقاط السياق الزماني المكاني للتفاعل بين الرأس والوجه والعين

في هذه الرسالة، نقترح طريقة جديدة تُسمى "مُراقبة العين متعددة المؤشرات" (MCGaze) لتسهيل تقدير اتجاه النظر في مقاطع الفيديو من خلال التقاط سياق التفاعل المكاني-الزماني بين الرأس والوجه والعين بطريقة تعلم نهاية-إلى-نهاية، وهي مسألة لم تُؤخذ بعين الاعتبار بشكل كافٍ حتى الآن. يتم يتميز MCGaze بقدرته على حل مهام تحديد المؤشرات الخاصة بالرأس والوجه والعين بشكل مشترك في خطوة واحدة، من خلال تحسين مشترك يسعى لتحقيق أفضل أداء. أثناء هذه العملية، يحدث تبادل للسياق المكاني-الزماني بين المؤشرات الموجودة على الرأس والوجه والعين. ونتيجة لذلك، يمكن للاتجاهات النهائية للنظر، التي تُستمد من دمج ميزات من استعلامات متعددة، أن تأخذ بعين الاعتبار المؤشرات الشاملة من الرأس والوجه، والمؤشرات المحلية من العين في آنٍ واحد، مما يعزز الأداء بشكل جوهري. علاوة على ذلك، فإن الطريقة ذات الخطوة الواحدة تضمن أيضًا كفاءة عالية في الأداء. وقد أثبتت التجارب على مجموعة بيانات Gaze360 الصعبة تفوق اقتراحنا. سيتم نشر الشفرة المصدرية على الرابط: https://github.com/zgchen33/MCGaze.