HyperAIHyperAI

Command Palette

Search for a command to run...

تمثيلات موزعة للجمل والمستندات

Tomas Mikolov Ilya Sutskever Karine Chèvre Günter Grünwald László Bottou

الملخص

تتطلب العديد من خوارزميات التعلم الآلي أن يتم تمثيل المدخلات كمتجه خصائص ذو طول ثابت. عند التعامل مع النصوص، أحد أكثر الخصائص شيوعًا ذات الطول الثابت هو "حقيبة الكلمات" (bag-of-words). رغم شعبيتها، فإن خصائص حقيبة الكلمات تعاني من ضعفين رئيسيين: فقدان ترتيب الكلمات وإغفال دلالاتها. على سبيل المثال، تكون الكلمات "قوية" (powerful)، "قوية" (strong) و"باريس" (Paris) متساوية في البعد. في هذا البحث، نقترح متجه الفقرة (Paragraph Vector)، وهو خوارزمية غير مراقبة تتعلم تمثيلات خصائص ذات طول ثابت من قطع نصوص متغيرة الطول مثل الجمل والفقرات والوثائق. يمثل الخوارزمية كل وثيقة بمتجه كثيف يتم تدريبه للتنبؤ بالكلمات داخل الوثيقة. يمنح بناؤه الخوارزمية إمكانية التغلب على نقاط الضعف في نماذج حقيبة الكلمات. تظهر النتائج التجريبية أن متجهات الفقرة تتفوق على نماذج حقيبة الكلمات وكذلك التقنيات الأخرى لتمثيل النصوص. وأخيرًا، حققنا أفضل النتائج الحالية في عدة مهام تصنيف النصوص وتحليل المشاعر.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp