HAKE: محرك معرفة النشاط البشري

فهم النشاط البشري هو أمر حاسم لبناء نظام ذكاء آلي تلقائي. بفضل التعلم العميق، حقق فهم النشاط تقدماً كبيراً في السنوات الأخيرة. ومع ذلك، لا تزال بعض التحديات مثل عدم توازن توزيع البيانات، غموض الأفعال، وأنماط البصر المعقدة قائمة. لمعالجة هذه التحديات وتعزيز فهم النشاط، قمنا ببناء محرك معرفة نشاط بشري على نطاق واسع (HAKE) يعتمد على حالات أجزاء الجسم. بناءً على مجموعات بيانات النشاط الموجودة، قمنا بتسمية حالات الأجزاء الخاصة بكل الأشخاص النشطين في جميع الصور، مما أقام علاقة بين النشاط الفردي وحالات أجزاء الجسم. بالإضافة إلى ذلك، اقترحنا نموذج تمييز حالة الجزء يستند إلى HAKE مع مستخرج المعرفة يُدعى Activity2Vec وشبكة استدلال تعتمد على حالة الجزء المقابلة. بفضل HAKE، يمكن لطريقتنا تخفيف صعوبة التعلم التي يسببها توزيع البيانات ذيل طويل (long-tail data distribution)، وإدخال القابلية للتفصيل والشرح. الآن، يحتوي HAKE لدينا على أكثر من 7 مليون تسمية حالة جزء وما زال قيد الإنشاء. نحن نتحقق من نهجنا لأول مرة على جزء من HAKE في هذا الورقة الأولية، حيث نظهر تحسينًا بنسبة 7.2 mAP في تمييز التفاعلات بين الإنسان والأشياء (Human-Object Interaction recognition)، وتحسينًا بنسبة 12.38 mAP في المجموعات الفرعية ذات اللقطة الواحدة (one-shot subsets).