منذ شهر واحد

تغذية متجهات الكلمات بمعلومات الأجزاء الفرعية للكلمات

Piotr Bojanowski; Edouard Grave; Armand Joulin; Tomas Mikolov

الملخص

التمثيلات الكلامية المستمرة، التي يتم تدريبها على مجموعات كبيرة من النصوص غير المصنفة، مفيدة للكثير من مهام معالجة اللغة الطبيعية. النماذج الشائعة التي تتعلم مثل هذه التمثيلات تتجاهل التركيب الصرفي للكلمات من خلال تعيين متجه فريد لكل كلمة. وهذا يعتبر قيدًا، خاصة بالنسبة لللغات ذات المخزون اللغوي الكبير والعديد من الكلمات النادرة. في هذا البحث، نقترح نهجًا جديدًا يستند إلى نموذج skipgram، حيث يتم تمثيل كل كلمة كحقيبة من $n$-groups الحرفية (character $n$-grams). يرتبط تمثيل متجهي بـ $n$-group الحرفية؛ وتُمثل الكلمات كمجموع هذه التمثيلات. طريقتنا سريعة، مما يسمح بتدريب النماذج على مجموعات بيانات كبيرة بسرعة ويتيح لنا حساب التمثيلات الكلامية لكلمات لم تظهر في بيانات التدريب. نقيم تمثيلات الكلمات الخاصة بنا على تسعة لغات مختلفة، سواءً في مهمات التشابه الكلامي أو المهمات التناظرية. من خلال المقارنة مع التمثيلات الكلامية الصرفية المقترحة مؤخرًا، نوضح أن متجهاتنا تحقق أداءً رائدًا在这类任务上 (state-of-the-art performance on these tasks).