تمثيل الوثائق مع الوعي بالتصنيفات عبر انتباه مختلط للتصنيف النصي متعدد التصنيفات بشكل متطرف

التصنيف النصي متعدد التسميات بشكل متطرف (XMTC) يهدف إلى وضع العلامات الأكثر صلة بالوثيقة من مجموعة تسميات ضخمة للغاية. يعتبر هذا مشكلة صعبة خاصة بالنسبة للتسميات في ذيل التوزيع، نظرًا لوجود عدد قليل فقط من الوثائق التدريبية لبناء المصنف. يسعى هذا البحث إلى استكشاف العلاقة الدلالية بين كل وثيقة والتسميات المتطرفة بشكل أفضل من خلال الاستفادة من محتوى الوثيقة وارتباط التسميات. هدفنا هو إنشاء تمثيل واضح يعتمد على التسمية لكل وثيقة باستخدام نموذج شبكة عصبية عميقة مختلطة مع آلية الانتباه (LAHA). يتكون نموذج LAHA من ثلاثة أجزاء. الجزء الأول يستخدم آلية انتباه ذاتي متعددة التسميات لاكتشاف مساهمة كل كلمة في التسميات. الجزء الثاني يستغل بنية التسميات ومحتوى الوثيقة لتحديد الصلة الدلالية بين الكلمات والتسميات في نفس الفضاء الكامن. يتم تصميم استراتيجية دمج متكيفة في الجزء الثالث للحصول على التمثيل النهائي للوثيقة الذي يعتمد على التسمية، بحيث يمكن دمج جوهر الجزأين السابقين بشكل كافٍ. تم إجراء تجارب واسعة النطاق على ستة مجموعات بيانات معيارية من خلال المقارنة مع الأساليب الأكثر تقدمًا حاليًا. أظهرت النتائج تفوق طريقة LAHA المقترحة، خاصة بالنسبة للتسميات في ذيل التوزيع.