التعرف على الحالة: تسمية الأدوار الشكلية البصرية لفهم الصور

يقدّم هذا البحث مفهوم التعرف على الحالة، وهو مشكلة توليد ملخّص موجز للحالة التي تُمثّلها صورة ما، ويشمل: (1) النشاط الرئيسي (مثل قصّ شيء ما)، (2) المشاركين في النشاط، مثل الأشخاص، والأشياء، والمواد، والأماكن (مثل رجل، مقص، خروف، صوف، وحقل)، والأهم من ذلك (3) الأدوار التي يلعبها هؤلاء المشاركون في النشاط (مثل أن الرجل هو من يقوم بالقص، والمُقص أداة يستخدمها، والصوف هو ما يُقص من الخروف، والقص يحدث في حقل). ونستخدم FrameNet، وهو قاموس للأفعال والأدوار طوّرته علماء اللغة، لتحديد فضاء واسع من الحالات الممكنة، وجمعنا مجموعة بيانات كبيرة تضم أكثر من 500 نشاط، و1700 دور، و11000 كائن، و125000 صورة، و200000 حالة فريدة. كما نقدّم نماذج أساسية للتنبؤ المهيكل، ونُظهر أن التنبؤ المُوجّه بالحالة في الصور ذات البُعد النشطي يتفوّق على التعرف المستقل على الأشياء والأنشطة.