{ Leonid Sigal Mohammed Suhail}

الملخص
فهم الصور بما يتجاوز الأفعال البارزة يتطلب التفكير في سياق المشهد، والكائنات، والوظائف التي تؤديها في الحدث المُلتقط. وقد تم مؤخرًا تقديم مهمة التعرف على الوضع (Situation Recognition) كمهمة تهدف إلى التفكير المشترك في الأفعال (الإجراءات) وعدد من أزواج الأدوار(semantic-role) والكائنات (الأسماء) على شكل "إطارات إجرائية". يتطلب وضع العلامة على صورة باستخدام إطار إجرائي تعيين قيم (أسماء) للدور الوظيفي بناءً على محتوى الصورة المُلاحظ. ومن بين التحديات الجوهرية التي تواجه هذه المهمة: التعقيد الهيكلي الشرطي الغني بين تعيينات الأدوار الناتجة، وندرة الدلالة الشاملة. في هذه الورقة، نقترح معمارية جديدة لشبكة عصبية رسمية (GNN) تعتمد على خليط أنوية الانتباه (mixture-kernel attention)، مصممة لمعالجة هذه التحديات. تتيح هذه الشبكة هيكل رسم بياني ديناميكي أثناء التدريب والاستنتاج، من خلال استخدام آلية انتباه الرسم البياني، وتحفيز تفاعلات واعية بالسياق بين أزواج الأدوار. ونُظهر فعالية نموذجنا واختيارات التصميم من خلال إجراء تجارب على مجموعة بيانات معيارية imSitu، حيث حقق النموذج تحسنًا في الدقة يصل إلى 10% مقارنة بأفضل النماذج الحالية.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| grounded-situation-recognition-on-swig | Kernel GraphNet | Top-1 Verb: 43.27 Top-1 Verb u0026 Value: 35.41 Top-5 Verbs: 68.72 Top-5 Verbs u0026 Value: 55.62 |
| situation-recognition-on-imsitu | Kernel GraphNet | Top-1 Verb: 43.27 Top-1 Verb u0026 Value: 35.41 Top-5 Verbs: 68.72 Top-5 Verbs u0026 Value: 55.62 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.