HyperAIHyperAI
منذ 2 أشهر

نهج التدريب الذاتي لترميز النصوص القصيرة

{Chris Develder, Thomas Demeester, Lucas Sterckx, Amir Hadifar}
نهج التدريب الذاتي لترميز النصوص القصيرة
الملخص

تُعد تجميع النصوص القصيرة مشكلة صعبة عند استخدام تمثيلات "حقيبة الكلمات" التقليدية أو TF-IDF، لأن هذه التمثيلات تؤدي إلى تمثيلات متجهية نادرة للنصوص القصيرة. يمكن للتمثيلات المستمرة ذات الأبعاد المنخفضة أو التضمينات (embeddings) التغلب على هذه المشكلة الناتجة عن الندرة، حيث تُستغل قوتها التمثيلية العالية في خوارزميات التجميع العميقة. وعلى الرغم من الدراسات الواسعة التي أُجريت حول التجميع العميقة في مجال الرؤية الحاسوبية، إلا أن قليلاً من الأعمال ركزت على مجال معالجة اللغة الطبيعية (NLP). يقترحُنا طريقة تتعلم خصائص تمييزية من خلال مُشفّر تلقائي (autoencoder) وتمثيل جملة (sentence embedding)، ثم تستخدم تخصيصات من خوارزمية تجميع كملاحظات لتحسين أوزان شبكة المشفر (encoder). وقد أثبتت التجارب على ثلاث مجموعات بيانات للنصوص القصيرة فعالية طريقة العمل بشكل تجريبي.