OpenIE6: التسمية الشبكية التكرارية وتحليل التنسيق لاستخراج المعلومات المفتوح

نظام استخراج المعلومات المفتوحة (OpenIE) الحديث من أحدث الأنظمة العصبية يُنتج الاستخلاصات بشكل تكراري، مما يتطلب تشفيرًا متكررًا للنتائج الجزئية، ما يترتب عليه تكلفة حسابية كبيرة. من ناحية أخرى، تكون نماذج تصنيف التسلسل (sequence labeling) لـ OpenIE أسرع بكثير، لكنها تُظهر جودة استخلاص أقل. في هذه الورقة، نُغلق هذا التناقض من خلال عرض نظام مبني على التصنيف التكراري، والذي يُحقّق حالة جديدة من التقدّم في مجال OpenIE، مع تسريع عملية الاستخلاص بعشرة أضعاف. يتم تحقيق ذلك من خلال معمارية جديدة تُسمى التصنيف الشبكي التكراري (Iterative Grid Labeling - IGL)، التي تُعامل مسألة OpenIE كمهمة تصنيف على شكل شبكة ثنائية الأبعاد. ونُحسّن أداؤها أكثر من خلال تطبيق قيود تغطية (ناعمة) على الشبكة أثناء التدريب.بالإضافة إلى ذلك، وبملاحظة أن أفضل الأنظمة الحالية تعاني من صعوبة في التعامل مع الهياكل التنسيقية (coordination structures)، فإن نظامنا لـ OpenIE يُدمج أيضًا تحليلًا جديدًا للتنسيق مبنيًا على نفس المعمارية IGL. يُسهم هذا المحلل القائم على IGL في تمكين نظامنا من التعامل مع هياكل تنسيقية معقدة، وفي الوقت نفسه يُحقّق حالة جديدة من التقدّم في مسألة تحليل التنسيق، بتحسّن بنسبة 12.3 نقطة في معامل F1 مقارنةً بالتحليلات السابقة. ويُفوق نظامنا OpenIE6 الأنظمة السابقة بنسبة تصل إلى 4 نقاط في معامل F1، مع تسريع كبير في الأداء.