تضمين الكلمات
تضمين الكلمات هو مصطلح عام لنماذج اللغة وتقنيات تعلم التمثيل في معالجة اللغة الطبيعية. مفهوميًا، يعني ذلك تضمين الكلمات من مساحة عالية الأبعاد في مساحة متجهية مستمرة منخفضة الأبعاد، حيث يتم تعيين كل كلمة أو عبارة إلى متجه في حقل العدد الحقيقي.
تتضمن طرق تضمين الكلمات الحالية الشبكات العصبية الاصطناعية، وتخفيض أبعاد مصفوفات بناء الكلمات، ونماذج الاحتمالات، والتمثيل الواضح للسياق الذي توجد فيه الكلمات. في المدخلات الأساسية، يمكن لطرق تضمين الكلمات التي تمثل العبارات أن تعمل على تحسين فعالية المحللين النحويين وتحليل مشاعر النص.
خوارزمية تضمين الكلمات
- تضمين الطبقات: طرق التعلم المشترك باستخدام نماذج الشبكات العصبية لمهام معالجة اللغة الطبيعية المحددة؛
- Word2Vec: طريقة إحصائية لتعلم تضمينات الكلمات المستقلة بكفاءة من مجموعة نصية.
- GloVe: امتداد لطريقة Word2Vec التي يمكنها تعلم متجهات الكلمات بكفاءة.