GenIE: استخراج المعلومات التوليدي

تمثيل النص بشكل منظم ومتين يُعدّ عادةً مُصاغًا من خلال استخراج المعلومات المغلقة، وهي المشكلة المتمثلة في استخراج مجموعة شاملة من ثلاثيات (الفاعل، العلاقة، المفعول) التي تتماشى مع مجموعة مُحددة مسبقًا من الكيانات والعلاقات من هيكل قاعدة معرفة. تُعدّ معظم الدراسات الحالية مُنَظّمة على شكل سلاسل خطية، وتتعرض لتكاثر الأخطاء، كما أن جميع النُهج المُتّبعة مُحدودة التطبيق بكميات غير واقعية من الكيانات والعلاقات. نقدّم GenIE (استخراج المعلومات التوليدية)، وهي أول صيغة مُتكاملة ذاتية التوليد (autoregressive) لاستخراج المعلومات المغلقة. يُستغل GenIE بشكل طبيعي المعرفة اللغوية المُكتسبة مسبقًا من نموذج الترانسفورمر من خلال توليد العلاقات والكيانات بشكل تسلسلي نصي. وبفضل استراتيجية توليد ثنائية المستوى الجديدة، تُنتج فقط ثلاثيات متماشية مع هيكل قاعدة المعرفة المُحددة مسبقًا. تُظهر تجاربنا أن GenIE تُعدّ الأفضل في مجال استخراج المعلومات المغلقة، وتُظهر قدرة على التعميم من عدد أقل من نقاط التدريب مقارنة بالأساليب السابقة، كما تُ-scalable إلى عدد غير مسبوق من الكيانات والعلاقات. وبهذا العمل، أصبح استخراج المعلومات المغلقة عمليًا في السياقات الواقعية، مما يفتح آفاقًا جديدة للمهام التالية. أخيرًا، يُعدّ هذا العمل خطوة أولى نحو نهج موحد متكامل للوظائف الأساسية لاستخراج المعلومات. الكود والبيانات والنموذج متاحان على: https://github.com/epfl-dlab/GenIE.