ERNet: كشف تفاعلات الإنسان مع الكائنات بكفاءة وموثوقية
كشف التفاعل بين الإنسان والكائن (HOI) يُعرف كيفية تفاعل الأشخاص مع الكائنات، وهو ميزة مفيدة في الأنظمة الذاتية مثل المركبات ذاتية القيادة والروبوتات التعاونية. ومع ذلك، فإن كاشفات HOI الحالية غالبًا ما تعاني من عدم كفاءة النموذج وعدم موثوقية التنبؤات، مما يحد من إمكاناتها في السيناريوهات الواقعية. في هذه الورقة، نعالج هذه التحديات من خلال اقتراح نموذج ERNet، وهو شبكة متعددة التدريب من نوع التحويلة-التماثلية (convolutional-transformer) قابلة للتدريب من النهاية إلى النهاية لكشف التفاعل بين الإنسان والكائن. يستخدم النموذج المقترح انتباهًا مُنْحَرِفًا متعدد المقياس بكفاءة لالتقاط الميزات الحيوية المرتبطة بتفاعل الإنسان والكائن. كما نقدم وحدة انتباه اكتشاف جديدة لتكوين تلقائي لرموز (tokens) ذات معاني غنية لكل من الكائنات والتفاعلات. تمر هذه الرموز بعمليات اكتشاف مُبَكِّرة لتوليد اقتراحات أولية للمناطق والمتغيرات، والتي تعمل أيضًا كاستفسارات (queries) لتعزيز عملية تحسين الميزات في مُفكِّكات التحويلة (transformer decoders). كما تم تطبيق عدة تحسينات مؤثرة لتحسين تعلم تمثيل HOI. بالإضافة إلى ذلك، نستخدم إطارًا لتقييم عدم اليقين التنبؤي في وحدات التصنيف الخاصة بالكائنات والتفاعلات لقياس مستوى عدم اليقين وراء كل تنبؤ. وبذلك، يمكننا التنبؤ بدقة وموثوقية بتفاعلات الإنسان والكائن حتى في السيناريوهات الصعبة. أظهرت نتائج التجارب على مجموعات بيانات HICO-Det وV-COCO وHOI-A أن النموذج المقترح يحقق أداءً رائدًا في دقة الكشف وكفاءة التدريب. تم إتاحة الشيفرة المصدرية للجمهور عبر الرابط التالي: https://github.com/Monash-CyPhi-AI-Research-Lab/ernet.