Command Palette
Search for a command to run...
PaStaNet: نحو محرك معرفة النشاط البشري
PaStaNet: نحو محرك معرفة النشاط البشري
Yong-Lu Li Liang Xu Xinpeng Liu Xijie Huang Yue Xu Shiyi Wang Hao-Shu Fang Ze Ma Mingyang Chen Cewu Lu
الملخص
تُعتمد الطرق الحالية لفهم الأنشطة القائمة على الصور بشكل رئيسي على التمثيل المباشر، أي من الصورة إلى مفاهيم النشاط، والتي قد تواجه عقبات أداء نظرًا للفراغ الكبير بين هذين النوعين من البيانات. ونظرًا لذلك، نقترح مسارًا جديدًا: استنتاج حالات الأجزاء البشرية أولًا، ثم استنتاج الأنشطة بناءً على الدلالات على مستوى الأجزاء. تُعتبر حالات أجزاء الجسم البشري (PaSta) رموزًا دلالية دقيقة للأنشطة، مثل <يد، تحمل، شيء ما>، والتي يمكن أن تُكوّن الأنشطة وتساعدنا في التقدّم نحو محرك معرفي للأنشطة البشرية. وللاستفادة الكاملة من إمكانيات PaSta، قمنا ببناء قاعدة معرفية ضخمة تُسمى PaStaNet، تحتوي على أكثر من 7 ملايين تسمية PaSta. كما تم اقتراح نموذجين مرتبطين: أولاً، صُمّم نموذج يُسمى Activity2Vec لاستخراج ميزات PaSta، بهدف إنتاج تمثيلات عامة تناسب مختلف الأنشطة. ثانيًا، استخدمنا طريقة استنتاج قائمة على PaSta لاستنتاج الأنشطة. وبفضل دعم PaStaNet، حققنا تحسينات كبيرة، مثل 6.4 و13.9 نقطة mAP على مجموعتي HICO الكاملة والواحدة-الإسقاط (one-shot) في التعلم المراقب، و3.2 و4.2 نقطة mAP على V-COCO والبيانات القائمة على الصور في AVA في سياق التعلم الناقل. يمكن الوصول إلى الكود والبيانات عبر الرابط: http://hake-mvig.cn/.