تمثيلات ذات ذيول ثقيلة، تصنيف قطب النص، وتعزيز البيانات

تستند الطرق السائدة لتمثيل النصوص في اللغة الطبيعية على تعلم التضمينات (embeddings) على مجموعات ضخمة من البيانات، والتي تتميز بخصائص مفيدة مثل التراكب (compositionality) وحفظ المسافات (distance preservation). في هذه الورقة، نطور طريقة جديدة لتعلم تضمينات ذات توزيعات ذات ذيول ثقيلة (heavy-tailed embeddings) وتتمتع بخصائص منتظمة مرغوبة فيما يتعلق بذوائل التوزيع، مما يسمح بتحليل النقاط البعيدة عن جسم التوزيع باستخدام إطار نظرية القيم المتطرفة متعددة المتغيرات (multivariate extreme value theory). وبشكل خاص، نحصل على تصنيف خاص بالذوائل في التضمين المقترح، حيث تتفوق أداؤه على النموذج الأساسي (baseline). ويُظهر هذا الفاصل خاصية التحول المقياسية (scale invariance)، والتي نستفيد منها من خلال تقديم طريقة جديدة لتحرير النصوص تهدف إلى توسيع مجموعة البيانات مع الحفاظ على التسميات (label preserving dataset augmentation). وتُظهر التجارب العددية على بيانات نصية مُصَنَّعة وواقعية صلة الإطار المقترح، وتوثّق أن هذه الطريقة تُنتج جملًا ذات معنى وقابلة للتحكم في سماتها، مثل المشاعر الإيجابية أو السلبية.