
تتطلب العديد من خوارزميات التعلم الآلي أن يتم تمثيل المدخلات كمتجه خصائص ذو طول ثابت. عند التعامل مع النصوص، أحد أكثر الخصائص شيوعًا ذات الطول الثابت هو "حقيبة الكلمات" (bag-of-words). رغم شعبيتها، فإن خصائص حقيبة الكلمات تعاني من ضعفين رئيسيين: فقدان ترتيب الكلمات وإغفال دلالاتها. على سبيل المثال، تكون الكلمات "قوية" (powerful)، "قوية" (strong) و"باريس" (Paris) متساوية في البعد. في هذا البحث، نقترح متجه الفقرة (Paragraph Vector)، وهو خوارزمية غير مراقبة تتعلم تمثيلات خصائص ذات طول ثابت من قطع نصوص متغيرة الطول مثل الجمل والفقرات والوثائق. يمثل الخوارزمية كل وثيقة بمتجه كثيف يتم تدريبه للتنبؤ بالكلمات داخل الوثيقة. يمنح بناؤه الخوارزمية إمكانية التغلب على نقاط الضعف في نماذج حقيبة الكلمات. تظهر النتائج التجريبية أن متجهات الفقرة تتفوق على نماذج حقيبة الكلمات وكذلك التقنيات الأخرى لتمثيل النصوص. وأخيرًا، حققنا أفضل النتائج الحالية في عدة مهام تصنيف النصوص وتحليل المشاعر.