التجميع العميق باستخدام انتشار القياس

قدّمت النماذج العميقة تحسينات كبيرة على أحدث التقنيات في مجال التعلم الإشرافي والتعلم غير الإشرافي. على سبيل المثال، حققت تقنية التجميع المدمج العميق (Deep Embedded Clustering - DEC) تحسينًا كبيرًا في أداء التجميع غير الإشرافي من خلال استخدام مكثفات متراكمة للتعلم التمثيلي. ومع ذلك، فإن أحد نقاط الضعف في النمذجة العميقة هو أن بنية الجوار المحلية في الفضاء الأصلي لا يتم الحفاظ عليها بالضرورة في الفضاء الكامن. لحفظ الهندسة المحلية، تم اقتراح العديد من الطرق في أدبيات التعلم الإشرافي والتعلم شبه الإشرافي (مثل التجميع الطيفي وانتشار العلامات) باستخدام تنظيم لابلاسيان الرسم البياني.في هذا البحث، نجمع بين قوة التعلم التمثيلي العميق وانتشار المقاييس (Measure Propagation - MP)، وهي طريقة تنظيم رسم بياني تعتمد على الاختلاف كولباك-لايبلر (KL-divergence) والتي استخدمت في الأصل في السيناريو شبه الإشرافي. الفرضية الرئيسية لـ MP هي أنه إذا كانت نقطتا بيانات قريبتين في الفضاء الأصلي، فمن المحتمل أن تنتميا إلى نفس الصنف، كما يقاس بواسطة الاختلاف كولباك-لايبلر لتوزيع انتماء الصنف. بتطبيق نفس هذه الفرضية في سيناريو التعلم غير الإشرافي، نقترح نموذجنا للتجميع المدمج العميق المعزز بانتشار المقاييس (Deep Embedded Clustering Aided by Measure Propagation - DECAMP).قمنا بتقييم DECAMP على مهام تجميع النصوص القصيرة. وعلى ثلاث مجموعات بيانات عامة، حقق DECAMP أداءً تنافسيًا مع باقي الأساليب الرائدة الأخرى، بما في ذلك الأساليب التي تستفيد من بيانات إضافية لإنشاء تمثيلات الكلمات المستخدمة في عملية التجميع. كمثال، على مجموعة بيانات Stackoverflow، حقق DECAMP دقة تجميع بلغت 79٪، وهي أعلى بنسبة حوالي 5٪ من جميع الأساليب الموجودة حاليًا. تشير هذه النتائج التجريبية إلى أن DECAMP هي طريقة فعالة جدًا للتعلم غير الإشرافي.