توضيح معنى الكلمات القائمة على المعرفة باستخدام نماذج الموضوعات

توضيح معنى الكلمة (Word Sense Disambiguation) هو مشكلة مفتوحة في معالجة اللغة الطبيعية (Natural Language Processing)، وهي تحدي خاص ومفيد بشكل خاص في الإعداد غير المشرف، حيث يجب توضيح معنى جميع الكلمات في أي نص معين دون استخدام بيانات مصنفة. عادةً ما تستخدم أنظمة توضيح المعنى الجملة أو مجموعة صغيرة من الكلمات حول الكلمة المستهدفة كسياق للتوضيح لأن تعقيدها الحاسوبي يزداد بشكل أسي مع حجم السياق. في هذا البحث، نستغل صيغة نموذج الموضوع (topic model) لتصميم نظام توضيح معنى الكلمة يتناسب بشكل خطي مع عدد الكلمات في السياق. نتيجة لذلك، يكون نظامنا قادرًا على استخدام الوثيقة بأكملها كسياق لكلمة يجب توضيح معناها. الطريقة المقترحة هي نوع من التخصيص غير المنتظم للدالة الديريشلت الكامنة (Latent Dirichlet Allocation)، حيث يتم استبدال نسب المواضيع لنفس الوثيقة بنسب المجموعات المعجمية (synset). كما نستغل المعلومات الموجودة في WordNet بتعيين أولوية غير موحدة لتوزيع المجموعات المعجمية على الكلمات وأولوية لوغستيك-نورمال (logistic-normal) لتوزيع الوثائق على المجموعات المعجمية. قمنا بتقييم الطريقة المقترحة على مجموعات البيانات الإنجليزية Senseval-2، Senseval-3، SemEval-2007، SemEval-2013 وSemEval-2015 لجميع كلمات توضيح المعنى، وأظهرنا أنها تتفوق بشكل كبير على أفضل نظام غير مشرف مستند إلى المعرفة لـ WSD.