فراكي: استخراج تلقائي فوري للكلمات المفتاحية المُدمجة

استخراج الكلمات المفتاحية هو عملية تحديد الكلمات أو العبارات التي تعبر بأفضل وجه ممكن عن المفاهيم الأساسية في النص. تُولِّد البنية التحتية الإلكترونية كمًّا هائلاً من النصوص يوميًا وفي جميع الأوقات. ويتسبب هذا الحجم الضخم من الوثائق في جعل من الصعب جدًا على الموارد البشرية دراسة هذه الوثائق وإدارتها. ومع ذلك، فإن الحاجة إلى الوصول إلى هذه الوثائق بكفاءة وفعالية تظهر بوضوح في العديد من الأغراض. يُعد المدونة، أو المقال الإخباري، أو الملاحظة التقنية نصًا نسبيًا طويلًا، حيث يهدف القارئ إلى فهم الموضوع بناءً على الكلمات المفتاحية أو المواضيع. يعتمد نهجنا على مزيج من نموذجين: خصائص مركزية الرسم البياني وخصائص النصية. وقد تم استخدام الطريقة المقترحة لاستخراج أفضل كلمة مفتاحية من بين الكلمات المرشحة، وذلك باستخدام تركيبة مثلى من مقاييس المركزية الرسومية، مثل: مركزية الدرجة، ومركزية الربط، ومركزية المتجه الذاتي، ومركزية القرب، وغيرها، بالإضافة إلى خصائص نصية مثل: الحالة الحرفية (Casing)، ومكان الحدث (Term position)، وتوحيد تكرار الحدث (Term frequency normalization)، وتمييز الحدث بين الجمل (Term different sentence)، وتصنيف جزء الجملة (Part Of Speech tagging). كما تم اتخاذ محاولات لتمييز الكلمات المفتاحية عن العبارات المرشحة، واعتبارها ككلمات مفتاحية منفصلة. ولتقييم الطريقة المقترحة، تم استخدام سبعة مجموعات بيانات: Semeval2010، وSemEval2017، وInspec، وfao30، وThesis100، وpak2018، وWikinews، وتم تقديم النتائج بمقاييس الدقة (Precision) والاسترجاع (Recall) وقياس F. وقد أظهرت الطريقة المقترحة أداءً أفضل بكثير من النماذج المتاحة في الأدبيات، من حيث مقاييس التقييم، في جميع مجموعات البيانات المُستعرضة. وشهدت مقياس F-score زيادة قدرها حوالي 16.9٪، وكانت هذه الزيادة أكثر وضوحًا في مجموعة بيانات Inspec باللغة الإنجليزية، وفي Wikinews باللغات الأخرى.