HyperAIHyperAI
منذ 13 أيام

تمثيلات ذات ذيول ثقيلة، تصنيف قطب النص، وتعزيز البيانات

Hamid Jalalzai, Pierre Colombo, Chloé Clavel, Eric Gaussier, Giovanna Varni, Emmanuel Vignon, Anne Sabourin
تمثيلات ذات ذيول ثقيلة، تصنيف قطب النص، وتعزيز البيانات
الملخص

تستند الطرق السائدة لتمثيل النصوص في اللغة الطبيعية على تعلم التضمينات (embeddings) على مجموعات ضخمة من البيانات، والتي تتميز بخصائص مفيدة مثل التراكب (compositionality) وحفظ المسافات (distance preservation). في هذه الورقة، نطور طريقة جديدة لتعلم تضمينات ذات توزيعات ذات ذيول ثقيلة (heavy-tailed embeddings) وتتمتع بخصائص منتظمة مرغوبة فيما يتعلق بذوائل التوزيع، مما يسمح بتحليل النقاط البعيدة عن جسم التوزيع باستخدام إطار نظرية القيم المتطرفة متعددة المتغيرات (multivariate extreme value theory). وبشكل خاص، نحصل على تصنيف خاص بالذوائل في التضمين المقترح، حيث تتفوق أداؤه على النموذج الأساسي (baseline). ويُظهر هذا الفاصل خاصية التحول المقياسية (scale invariance)، والتي نستفيد منها من خلال تقديم طريقة جديدة لتحرير النصوص تهدف إلى توسيع مجموعة البيانات مع الحفاظ على التسميات (label preserving dataset augmentation). وتُظهر التجارب العددية على بيانات نصية مُصَنَّعة وواقعية صلة الإطار المقترح، وتوثّق أن هذه الطريقة تُنتج جملًا ذات معنى وقابلة للتحكم في سماتها، مثل المشاعر الإيجابية أو السلبية.

تمثيلات ذات ذيول ثقيلة، تصنيف قطب النص، وتعزيز البيانات | أحدث الأوراق البحثية | HyperAI