HyperAIHyperAI
منذ 2 أشهر

متجه تمثيل الكلمات المجمعة محليًا (VLAWE): تمثيل مستند جديد على مستوى المستندات

Radu Tudor Ionescu; Andrei M. Butnaru
متجه تمثيل الكلمات المجمعة محليًا (VLAWE): تمثيل مستند جديد على مستوى المستندات
الملخص

في هذا البحث، نقترح تمثيلًا جديدًا للوثائق النصية يعتمد على تجميع متجهات تضمين الكلمات إلى تضمينات وثائق. يستلهم نهجنا من المتجهات الوصفية المحصلة محليًا المستخدمة في تمثيل الصور، وهو يعمل كالآتي: أولاً، يتم تجميع متجهات التضمين الخاصة بالكلمات التي تم جمعها من مجموعة من الوثائق باستخدام خوارزمية k-means لتعلم كتاب رمزي لمتجهات التضمين ذات الصلة الدلالية. ثم يتم ربط كل متجه تضمين لكلمة بأقرب مركز للكتلة المرتبطة به (الرمز). يتم حساب تمثيل المتجهات الوصفية المحصلة محليًا لمتجهات التضمين (VLAWE) للوثيقة عن طريق تراكم الاختلافات بين كل متجه رمز وكل متجه كلمة (من الوثيقة) المرتبط بالرمز المعني. نقوم بتوصيل تمثيل VLAWE، الذي يتم تعلمه بطريقة غير مشروفة، بتصنيف ونظهر أنه مفيد لأداء مجموعة متنوعة من مهام تصنيف النص. نقارن نهجنا مع نطاق واسع من الأساليب الحديثة الرائدة، مما يثبت فعالية نهجنا. بالإضافة إلى ذلك، حققنا تحسنًا كبيرًا على مجموعة بيانات استعراض الأفلام، حيث بلغت دقة التصنيف 93.3٪، مما يمثل زيادة مطلقة قدرها 10٪ عن أفضل الأساليب الحالية. يمكن الوصول إلى شفرتنا البرمجية عبر الرابط: https://github.com/raduionescu/vlawe-boswe/.

متجه تمثيل الكلمات المجمعة محليًا (VLAWE): تمثيل مستند جديد على مستوى المستندات | أحدث الأوراق البحثية | HyperAI