التعرف على الأفعال في السياق باستخدام R*CNN

هناك العديد من العلامات في الصورة التي تكشف عن الفعل الذي يقوم به الشخص. على سبيل المثال، يمتلك الجار Jogger وضعية مميزة للجري، ولكن المشهد (مثل الطريق، المسار) وجود جارين آخرين يمكن أن يكون مصدرًا إضافيًا للمعلومات. في هذا البحث، نستغل الملاحظة البسيطة أن الأفعال ترافقها علامات سياقية لبناء نظام قوي لتمييز الأفعال. نقوم بتعديل RCNN لاستخدام أكثر من منطقة واحدة للتصنيف مع الحفاظ على القدرة على تحديد موقع الفعل. نطلق على نظامنا اسم RCNN. يتم تدريب النماذج الخاصة بالأفعال والخرائط المميزة بشكل مشترك، مما يسمح بظهور تمثيلات خاصة بالأفعال. حقق RCNN نسبة دقة متوسطة AP تبلغ 90.2% على مجموعة بيانات PASAL VOC Action، مما يتفوق بشكل كبير على جميع الأساليب الأخرى في المجال. أخيرًا، نوضح أن RCNN ليس مقتصرًا على تمييز الأفعال فحسب. بشكل خاص، يمكن استخدام RCNN أيضًا للتعامل مع المهام الدقيقة مثل تصنيف الصفات. نؤكد هذه المزاعم بتقديم أداء رائد في مجال مجموعة بيانات صفات البشر Berkeley Attributes of People.注:在阿拉伯语中,"Jogger" 通常翻译为 "الجار",但为了更准确地传达原意,可以考虑使用 "المارض"(跑步者)或者在首次出现时加上括号标注原文 "الجار (Jogger)"。在这里我选择了后者以确保信息的完整性。