HyperAIHyperAI
منذ 12 أيام

تحديد المسارات المعلوماتية التسلسلية والمنطقية باستخدام أسئلة 5W1H والعلاقات الزمنية

{Iadh Ounis, Graham McDonald, Hitarth Narvala}
الملخص

بسبب الحجم الهائل للمقالات التي تُنتج يوميًا عبر الإنترنت، يُعد من الصعب على المنصات الإلكترونية (مثل وكالات الأنباء) عرض معلومات حول حدث أو نشاط أو مناقشة ما لمستخدميها بشكل يسهل استيعابه. ولذلك، هناك حاجة إلى طرق آلية لاستخراج المعلومات المرتبطة وفق التسلسل الزمني حول الأحداث (أي سلاسل المعلومات) من مجموعات كبيرة وغير منظمة من الوثائق. في هذا العمل، نقترح نهجًا جديدًا لربط المعلومات يعتمد على التجميع التراكمي الهرمي غير المُراقب (HAC) لتكوين سلاسل معلومات مُرتبة زمنيًا ومتماسكة ضمن مجموعة من الوثائق. على عكس المهام المعروفة مثل كشف الموضوعات وتتبعها أو ربط المعلومات المتعلقة بالأحداث، التي تركز على تجميع المعلومات بناءً على كلمات مفتاحية مهمة و/أو كيانات، يعتمد النهج المُقترح لدينا على تحديد السلاسل بناءً على العلاقات الزمنية والمعلومات المتنوعة المتعلقة بالحدث، أي من فعل ما، ولماذا، وأين، ومتى، وكيف (المعروفة بأسئلة 5W1H). وبشكل خاص، يُطبّق النهج المُقترح دالة تماثل مُخصصة للتجميع التراكمي الهرمي (HAC) من خلال الاستفادة من الإجابات المستخلصة لأسئلة 5W1H، إلى جانب تراجع الزمن بين الوثائق. وقد قُمنا بتقييم نهجنا المُقترح لربط المعلومات باستخدام HAC و5W1H على مجموعتين كبيرتين مُصحّحتين من قبل خبراء من مقالات الأخبار، وهما NewSHead وMulti-News (بأكثر من 112 ألف و32 ألف مقال على التوالي). وأظهرت تجاربنا أن نهج HAC 5W1H يُحسّن بشكل ملحوظ عدد السلاسل ونوعيتها مقارنةً بالطرق الرائدة المتوفرة في الأدبيات، مثل زيادة بنسبة 100.98% في عدد السلاسل، وتحسّن بنسبة +213.39% في معامل المعلومات المُتبادلة القياسية (Normalized Mutual Information) مقارنةً بأفضل نموذج مُقيّم على مجموعة NewSHead الأكبر. كما أجرينا دراسة مستخدمين تُظهر أن نهج HAC 5W1H المُقترح يُفضّل بشكل كبير (p < 0.05) من قبل المستخدمين من حيث التماسك، والتنوع، والدقة الزمنية مقارنةً بالطرق الرائدة الحالية.

تحديد المسارات المعلوماتية التسلسلية والمنطقية باستخدام أسئلة 5W1H والعلاقات الزمنية | أحدث الأوراق البحثية | HyperAI