{Chris Develder Thomas Demeester Lucas Sterckx Amir Hadifar}

الملخص
تُعد تجميع النصوص القصيرة مشكلة صعبة عند استخدام تمثيلات "حقيبة الكلمات" التقليدية أو TF-IDF، لأن هذه التمثيلات تؤدي إلى تمثيلات متجهية نادرة للنصوص القصيرة. يمكن للتمثيلات المستمرة ذات الأبعاد المنخفضة أو التضمينات (embeddings) التغلب على هذه المشكلة الناتجة عن الندرة، حيث تُستغل قوتها التمثيلية العالية في خوارزميات التجميع العميقة. وعلى الرغم من الدراسات الواسعة التي أُجريت حول التجميع العميقة في مجال الرؤية الحاسوبية، إلا أن قليلاً من الأعمال ركزت على مجال معالجة اللغة الطبيعية (NLP). يقترحُنا طريقة تتعلم خصائص تمييزية من خلال مُشفّر تلقائي (autoencoder) وتمثيل جملة (sentence embedding)، ثم تستخدم تخصيصات من خوارزمية تجميع كملاحظات لتحسين أوزان شبكة المشفر (encoder). وقد أثبتت التجارب على ثلاث مجموعات بيانات للنصوص القصيرة فعالية طريقة العمل بشكل تجريبي.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| short-text-clustering-on-searchsnippets | SIF + Aut., Self-Train. | Acc: 77.1 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.