Phraseformer: استخراج العبارات المفتاحية متعددة الوسائط باستخدام Transformer وتمثيل الرسم البياني

الخلفية: تمثل استخراج الكلمات المفتاحية موضوعًا بحثيًا شائعًا في مجال معالجة اللغة الطبيعية. تُعد الكلمات المفتاحية مصطلحات تصف المعلومات الأكثر صلة بمستند معين. ويتمثل المشكلة الرئيسية التي يواجهها الباحثون في كيفية استخراج الكلمات المفتاحية الأساسية بشكل فعّال ودقيق من المستند. ومع ذلك، فإن النماذج السابقة لاستخراج الكلمات المفتاحية استخدمت ميزات النص والرسوم البيانية، لكنها تعاني من نقص في وجود نماذج قادرة على تعلّم ودمج هذه الميزات بطريقة مثلى.الطرق: في هذه الورقة البحثية، نطور منهجية متعددة الوسائط لاستخراج العبارات المفتاحية تُسمى "Phraseformer"، باستخدام تقنيات نموذج الترانسفورمر وتمثيل الرسوم البيانية. في نموذج Phraseformer، يُمثّل كل مرشح لكلمة مفتاحية بمتجه ناتج عن دمج تمثيلات النص والبنية. ويستفيد نموذج Phraseformer من أحدث الأبحاث مثل BERT وExEm لحفظ كلا النوعين من التمثيلات. كما يُعامل نموذج Phraseformer مهمة استخراج العبارات المفتاحية كمشكلة تسمية تسلسلية يتم حلها باستخدام مهمة تصنيف.النتائج: قمنا بتحليل أداء نموذج Phraseformer على ثلاث مجموعات بيانات تشمل Inspec وSemEval2010 وSemEval2017 باستخدام مقياس F1. كما قمنا بدراسة أداء مختلف تصنيفات النماذج على نموذج Phraseformer باستخدام مجموعة بيانات Inspec. وأظهرت النتائج التجريبية فعالية نموذج Phraseformer على المجموعات الثلاث المستخدمة. علاوةً على ذلك، حققت فئة التصنيف "Random Forest" أعلى مقياس F1 مقارنة بجميع الفئات الأخرى.الاستنتاجات: نظرًا لأن دمج BERT وExEm يُعد أكثر دلالة ويُمكّن من تمثيل أدق للدلالات اللغوية، فإن نموذج Phraseformer يتفوق بشكل ملحوظ على الطرق ذات الوسيطة الواحدة.