HyperAIHyperAI

Command Palette

Search for a command to run...

مُحَوِّل البصرية لمنطقة التفاعل للتنبؤ بالإجراءات من منظور ذاتي

Debaditya Roy Ramanathan Rajendiran Basura Fernando

الملخص

تُعد التفاعل البشري-الكائن أحد أهم المؤشرات البصرية، ونُقدّم طريقة جديدة لتمثيل التفاعلات البشرية-الكائنية بهدف التنبؤ بالإجراءات من منظور شخصي (egocentric). نقترح نسخة مُعدّلة من نموذج الترانسفورمر لتمثيل هذه التفاعلات من خلال حساب التغيرات في مظهر الكائنات والأيدي البشرية الناتجة عن تنفيذ الإجراءات، واستخدام هذه التغيرات لتحسين تمثيل الفيديو. وبشكل خاص، نُمثّل التفاعلات بين الأيدي والكائنات باستخدام الانتباه المتقاطع المكاني (Spatial Cross-Attention - SCA)، ثم نُضفي معلومات سياقية إضافية باستخدام الانتباه المتقاطع للمسار (Trajectory Cross-Attention) للحصول على رموز تفاعل مُحسّنة بناءً على البيئة. باستخدام هذه الرموز، نُنشئ تمثيلًا مركّزًا حول التفاعل للفيديو بهدف التنبؤ بالإجراءات. ونُسمّي نموذجنا InAViT، والذي حقق أداءً متقدمًا على مستوى العالم في التنبؤ بالإجراءات على مجموعات بيانات كبيرة من الفيديو الشخصي مثل EPICKTICHENS100 (EK100) وEGTEA Gaze+. وتفوّق InAViT على الطرق الأخرى القائمة على نماذج الترانسفورمر، بما في ذلك النماذج التي تعتمد على تمثيل الفيديو المركّز حول الكائنات. وعلى خادم تقييم EK100، كان InAViT هو النموذج الأفضل في قائمة التصنيف العامة (في وقت التقديم)، حيث تفوّق على النموذج الثاني بأكثر من 3.3% في متوسط دقة التذكر عند المرتبة الخامسة (mean-top5 recall).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مُحَوِّل البصرية لمنطقة التفاعل للتنبؤ بالإجراءات من منظور ذاتي | مستندات | HyperAI