DetIE: استخراج مفاهيم مفتوحة متعدد اللغات مستوحى من الكشف عن الكائنات

تُستخدم الأساليب العصبية الحديثة لاستخراج المعلومات المفتوحة (OpenIE) عادةً استخراج ثلاثيات (أو كُتَل) بشكل تكراري بطريقة ذاتية التوليد (autoregressive) أو تعتمد على الفعل (predicate-based)، وذلك لتجنب إنتاج نتائج مكررة. في هذا العمل، نقترح نهجًا مختلفًا للمشكلة، والذي يمكن أن يكون مُناضلًا أو حتى أكثر نجاحًا. وبشكل محدد، نقدم طريقة جديدة لاستخراج المعلومات المفتوحة ذات مرور واحد (single-pass) مستوحاة من خوارزميات كشف الأجسام في مجال الرؤية الحاسوبية. نستخدم دالة خسارة غير حساسة للترتيب تعتمد على التوافق الثنائي (bipartite matching)، والتي تُجبر النماذج على إنتاج تنبؤات فريدة، إلى جانب بنية مُشفّرة قائمة على مُؤسّس (Transformer) بدون مُفكّك (encoder-only) لمهام تصنيف التسلسلات. ويتميز النهج المقترح بالسرعة العالية، ويُظهر أداءً متفوقًا أو مماثلًا للموديلات الرائدة في المعايير القياسية من حيث مؤشرات الجودة ووقت الاستنتاج. ويُحقق نموذجنا أداءً جديدًا لحالة الفن (state of the art) بنسبة 67.7% في مؤشر F1 على مجموعة CaRB عند تقييمها ضمن إطار OIE2016، مع تسريع بنسبة 3.35 مرة في وقت الاستنتاج مقارنةً بالنموذج السابق الأفضل. كما قمنا بتقييم النسخة متعددة اللغات لنموذجنا في بيئة الاستخدام الصفرية (zero-shot) لغتين، وقمنا بعرض استراتيجية لإنشاء بيانات متعددة اللغات اصطناعية لتحسين نموذجنا لكل لغة بشكل مخصص. وفي هذه البيئة، أظهرنا تحسنًا بنسبة 15% في الأداء على مجموعة Re-OIE2016 متعددة اللغات، وبلغ مؤشر F1 75% لكل من اللغة البرتغالية والإسبانية. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/sberbank-ai/DetIE.