HyperAIHyperAI

Command Palette

Search for a command to run...

تغذية متجهات الكلمات بمعلومات الأجزاء الفرعية للكلمات

Piotr Bojanowski* Edouard Grave* Armand Joulin Tomas Mikolov

الملخص

التمثيلات الكلامية المستمرة، التي يتم تدريبها على مجموعات كبيرة من النصوص غير المصنفة، مفيدة للكثير من مهام معالجة اللغة الطبيعية. النماذج الشائعة التي تتعلم مثل هذه التمثيلات تتجاهل التركيب الصرفي للكلمات من خلال تعيين متجه فريد لكل كلمة. وهذا يعتبر قيدًا، خاصة بالنسبة لللغات ذات المخزون اللغوي الكبير والعديد من الكلمات النادرة. في هذا البحث، نقترح نهجًا جديدًا يستند إلى نموذج skipgram، حيث يتم تمثيل كل كلمة كحقيبة من nnn-groups الحرفية (character nnn-grams). يرتبط تمثيل متجهي بـ nnn-group الحرفية؛ وتُمثل الكلمات كمجموع هذه التمثيلات. طريقتنا سريعة، مما يسمح بتدريب النماذج على مجموعات بيانات كبيرة بسرعة ويتيح لنا حساب التمثيلات الكلامية لكلمات لم تظهر في بيانات التدريب. نقيم تمثيلات الكلمات الخاصة بنا على تسعة لغات مختلفة، سواءً في مهمات التشابه الكلامي أو المهمات التناظرية. من خلال المقارنة مع التمثيلات الكلامية الصرفية المقترحة مؤخرًا، نوضح أن متجهاتنا تحقق أداءً رائدًا在这类任务上 (state-of-the-art performance on these tasks).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp