شبكات عصبية ذاتية التعلم للتفويض النصي القصير

تجميع النصوص القصيرة هو مشكلة صعبة بسبب ندرة تمثيل النص. في هذا البحث، نقترح إطارًا مرنًا لشبكات العصبونات التلافيفية ذاتية التعليم لتجميع النصوص القصيرة (يُطلق عليه اختصارًا STC^2)، والذي يمكنه دمج ميزات معنوية مفيدة بشكل مرناً وناجح وتعلم تمثيل عميق غير متحيز للنص بطريقة غير مراقبة. في إطارنا، يتم أولاً تضمين الميزات الأولية للنص الخام في رموز ثنائية مضغوطة باستخدام إحدى طرق تخفيض البعد الغير مراقبة الموجودة. ثم، يتم استكشاف تضمينات الكلمات وإدخالها إلى شبكات العصبونات التلافيفية لتعلم تمثيلات الميزات العميقة، وفي الوقت نفسه يتم استخدام وحدات الإخراج لتوافق الرموز الثنائية المدربة مسبقًا خلال عملية التدريب. أخيرًا، نحصل على التجمعات الأمثل من خلال استخدام خوارزمية K-means لتجميع التمثيلات التي تم تعلمها. تظهر النتائج التجريبية الواسعة أن الإطار المقترح فعال ومرن ويتفوق على عدة طرق تجميع شائعة عند اختبارها على ثلاثة قواعد بيانات عامة للنصوص القصيرة.