HyperAIHyperAI
منذ 9 أيام

التوقع الفعل التالي من خلال نمذجة الهدف المجرد

Debaditya Roy, Basura Fernando
التوقع الفعل التالي من خلال نمذجة الهدف المجرد
الملخص

مشكلة توقع السلوك البشري هي مشكلة بطبيعتها غير مؤكدة. ومع ذلك، يمكننا تقليل هذه عدم اليقين إذا كان لدينا إدراك لهدف الفاعل الذي يسعى لتحقيقه. في هذا العمل، نقدم نموذجًا لتوقع السلوك يستفيد من معلومات الهدف بهدف تقليل عدم اليقين في التنبؤات المستقبلية. وبما أننا لا نمتلك معلومات الهدف أو السلوك المُلاحظ أثناء عملية الاستنتاج، فإننا نعتمد على التمثيل البصري لتوحيد المعلومات المتعلقة بالسلوكيات والأهداف. من خلال هذا النهج، نستخلص مفهومًا جديدًا يُسمى "الهدف المجرد"، والذي يعتمد على التسلسلات المُلاحظة من السمات البصرية لغرض توقع السلوك. نُصمم الهدف المجرد كتوزيع، حيث يتم تقدير معاملاته باستخدام شبكة متكررة تكيفية (variational recurrent network). نقوم بأخذ عينات من عدة مرشحات للسلوك التالي، ونُقدّم مقياسًا لاتساق الهدف لتحديد المرشح الأفضل الذي يُستنتج من الهدف المجرد. تُظهر طريقة عملنا نتائج مبهرة على مجموعات بيانات صعبة للغاية، وهي Epic-Kitchens55 (EK55)، وEK100، وEGTEA Gaze+. نحصل على تحسينات مطلقة تبلغ +13.69 و+11.24 و+5.19 على التوالي في دقة توقع الفعل (Top-1 verb)، والاسم (Top-1 noun)، والسلوك (Top-1 action) مقارنةً بالأساليب السابقة الأفضل في مجموعات المطابخ المرئية (S1) من EK55. وبالمثل، نحقق تحسينات كبيرة أيضًا في مجموعة المطابخ غير المرئية (S2)، بتحسن مطلق بلغ +10.75 في توقع الفعل (Top-1 verb)، و+5.84 في توقع الاسم (Top-1 noun)، و+2.87 في توقع السلوك (Top-1 action). ونلاحظ نفس الاتجاه في مجموعة بيانات EGTEA Gaze+، حيث نحصل على تحسن مطلق قدره +9.9 و+13.1 و+6.8 على التوالي في توقع الاسم، والفعل، والسلوك. تم تقديم هذه الطريقة في هذه الورقة، وهي حاليًا تمثل أفضل الأداء (state-of-the-art) في توقع السلوك في مجموعتي بيانات EK55 وEGTEA Gaze+، وذلك عبر منصة المسابقات: https://competitions.codalab.org/competitions/20071#results. كود التنفيذ متاح عبر: https://github.com/debadityaroy/Abstract_Goal