Def2Vec: تمثيلات كلمات قابلة للتوسع من تعريفات القواميس

يُقدِّم Def2Vec نموذجًا جديدًا لتمثيلات الكلمات (word embeddings)، مستفيدًا من تعريفات القواميس لاستخلاص تمثيلات معنوية. من خلال بناء مصفوفات المصطلح-الوثيقة من تعريفات المصطلحات وتطبيق تحليل المعاني المُستترة (Latent Semantic Analysis - LSA)، يُولِّد Def2Vec تمثيلات مُدمجة تتميز بأداء قوي وقابلية للتوسيع. وقد أظهر النموذج أداءً مُنافسًا أو حتى أفضل من النماذج الرائدة مثل Word2Vec وGloVe وfastText في تقييمات تشمل تحديد نوعية الكلمة (Part-of-Speech tagging)، وتحديد الكيانات المعرفة (Named Entity Recognition)، وتقسيم الجمل (chunking)، والتشابه المعنوي. كما أن المصفوفة الثانية الناتجة عن عملية التحليل المُستقرة (LSA) في نموذجنا تتيح توسيع التمثيلات بشكل فعّال للكلمات التي لا توجد في القاموس (out-of-vocabulary). وباستيعابه بفعالية لمزايا تعريفات القواميس مع تمثيلات LSA، يُنتج Def2Vec تمثيلات معنوية غنية بالمعلومات، وبخاصة بالنظر إلى احتياجاته المُحدودة من البيانات. يُسهم هذا البحث في تعميق الفهم لعملية إنشاء تمثيلات الكلمات من خلال دمج المعلومات اللفظية المُنظمة وتمكين التوسع الفعّال في التمثيلات.