HyperAIHyperAI
منذ 2 أشهر

تمثيلات موزعة للجمل والمستندات

Quoc V. Le; Tomas Mikolov
تمثيلات موزعة للجمل والمستندات
الملخص

تتطلب العديد من خوارزميات التعلم الآلي أن يتم تمثيل المدخلات كمتجه خصائص ذو طول ثابت. عند التعامل مع النصوص، أحد أكثر الخصائص شيوعًا ذات الطول الثابت هو "حقيبة الكلمات" (bag-of-words). رغم شعبيتها، فإن خصائص حقيبة الكلمات تعاني من ضعفين رئيسيين: فقدان ترتيب الكلمات وإغفال دلالاتها. على سبيل المثال، تكون الكلمات "قوية" (powerful)، "قوية" (strong) و"باريس" (Paris) متساوية في البعد. في هذا البحث، نقترح متجه الفقرة (Paragraph Vector)، وهو خوارزمية غير مراقبة تتعلم تمثيلات خصائص ذات طول ثابت من قطع نصوص متغيرة الطول مثل الجمل والفقرات والوثائق. يمثل الخوارزمية كل وثيقة بمتجه كثيف يتم تدريبه للتنبؤ بالكلمات داخل الوثيقة. يمنح بناؤه الخوارزمية إمكانية التغلب على نقاط الضعف في نماذج حقيبة الكلمات. تظهر النتائج التجريبية أن متجهات الفقرة تتفوق على نماذج حقيبة الكلمات وكذلك التقنيات الأخرى لتمثيل النصوص. وأخيرًا، حققنا أفضل النتائج الحالية في عدة مهام تصنيف النصوص وتحليل المشاعر.

تمثيلات موزعة للجمل والمستندات | أحدث الأوراق البحثية | HyperAI