Command Palette
Search for a command to run...
نهج تغطية الموضوع لتقييم نماذج الموضوعات
نهج تغطية الموضوع لتقييم نماذج الموضوعات
DAMIR KORENČIĆ STRAHIL RISTOV JELENA REPAR AND JAN ŠNAJDER
الملخص
تُستخدم نماذج الموضوعات على نطاق واسع كنماذج غير مراقبة قادرة على تعلم المواضيع - وهي قوائم مرتبطة بأوزان من الكلمات والوثائق - من مجموعات كبيرة من الوثائق النصية. عند استخدام نماذج الموضوعات لاكتشاف المواضيع في مجموعات النصوص، ينشأ السؤال بشكل طبيعي حول مدى تطابق المواضيع التي استخلصتها النموذج مع المواضيع ذات الاهتمام للخبير. في هذا البحث، نعيد النظر ونوسّع في نهج تم إهماله حتى الآن لتقييم نماذج الموضوعات يستند إلى قياس تغطية الموضوع - وهو التوافق الحاسوبي بين مواضيع النموذج ومجموعة من المواضيع المرجعية التي يُتوقع من النماذج أن تكشف عنها. يعتبر هذا النهج مناسبًا جدًا لتحليل أداء النماذج في اكتشاف الموضوعات وللتحليل على نطاق واسع لكلٍ من نماذج الموضوعات ومقاييس جودة النموذج. نقترح مقاييس جديدة للتغطية وتقييم، ضمن سلسلة من التجارب، أنواع مختلفة من نماذج الموضوعات في مجالين مختلفين للنصوص حيث يوجد اهتمام باكتشاف المواضيع. تتضمن هذه التجارب تقييم جودة النموذج، وتحليل تغطية فئات موضوعية محددة، وتحليل العلاقة بين التغطية وأساليب أخرى لتقييم نماذج الموضوعات. يساهم البحث بمقياس جديد مراقب للتغطية، وبالقياس الأول غير المراقب للتغطية. يحقق المقاييس المراقب دقة توافق مواضيع قريبة من الاتفاق البشري. بينما يرتبط المقاييس غير المراقب بشكل كبير بالمقاييس المراقب (معامل ارتباط سبيرمان ρ≥0.95). تتضمن المساهمات الأخرى رؤى حول كلٍ من نماذج الموضوعات وأساليب مختلفة لتقييم النموذج، بالإضافة إلى البيانات والمدونة لتسهيل الأبحاث المستقبلية حول تغطية الموضوعات.