التعرف على الوضع المتأصل
نقدم مفهوم التعرف على الحالة المرتكزة (GSR)، وهو مهمة تتطلب إنتاج ملخصات معنوية منظمة للصور تصف: النشاط الرئيسي، والكيانات المشاركة في هذا النشاط مع أدوارها (مثل الفاعل، الأداة)، وتحديد المربعات الحدودية لهذه الكيانات. يطرح GSR تحديات تقنية مهمة: تحديد البارزة المعنوية، تصنيف وتوضيح مجموعة كبيرة ومتنوعة من الكيانات، التغلب على الندرة المعنوية، وتوضيح الأدوار. بالإضافة إلى ذلك، على عكس التعليقات الصوتية، فإن GSR سهل التقييم. لدراسة هذه المهمة الجديدة، قمنا بإنشاء مجموعة بيانات "الحالات مع التحديد" (SWiG) التي تضيف 278,336 تحديدًا للمربعات الحدودية إلى 11,538 فئة كيان في مجموعة بيانات imSitu. نقترح محرك تحديد الحالة المشترك ونجده أن التنبؤ المشترك بالحالات والتحديد مع التدريب من البداية إلى النهاية يتفوق بسهولة على التدريب المستقل على جميع مقاييس التحديد بنسبة زيادة تتراوح بين 8٪ و32٪. أخيرًا، نعرض النتائج الأولية حول ثلاثة اتجاهات مستقبلية مثيرة تمكّن منها نموذجنا: الاستعلام الشرطي، السلسلة البصرية، واسترجاع الصور الواعي بالمعنى المرتكز. يمكن الوصول إلى الشفرة والبيانات عبر الرابط https://prior.allenai.org/projects/gsr.