HyperAIHyperAI
منذ 11 أيام

التجميع المتعدد المستند إلى الأدلة المستخلصة من مصفوفة الترابط المشترك

الملخص

نموذج تراكم الأدلة هو منهجية لجمع معلومات الأقسام الأساسية في طريقة تجميع التجميع (clustering ensemble)، ويمكن اعتباره تحويلًا نواة (kernel transformation) من فضاء البيانات الأصلي إلى مصفوفة الترابط المشترك (co-association matrix). ومع ذلك، قد تُفقد جزئيًا معلومات بنية التجميع أثناء هذا التحويل؛ ولذلك، اقترح بعض الأساليب المنشورة في الأدبيات محاولة استعادة تلك المعلومات المفقودة وإعادتها إلى عملية التجميع. في هذه الورقة، يتم تقديم ظاهرة مثيرة للاهتمام: فإن إزالة بعض الأدلة من مصفوفة الترابط المشترك يمكن أن تؤدي إلى نتائج تجميع أكثر دقة. والشرح البديهي لهذا الظاهرة هو أن بعض الأدلة في المصفوفة الأصلية لترابط مشترك قد تكون ضوضاء (noise)، وتؤثر سلبًا على التجميع النهائي. ومع ذلك، فإن اكتشاف هذه الأدلة عمليًا أمر صعب، ناهيك عن إزالتها من المصفوفة. لمعالجة هذه المشكلة، نقوم بإزالة الأدلة المتعددة المستويات التي تظهر بتردد منخفض، نظرًا لأن الأدلة السلبية لا تظهر عادةً بشكل منتظم في الأقسام الأساسية. بعد ذلك، نستخدم تقنية التقسيم المُعدّل (normalized cut) لتحقيق نتائج تجميع متعددة. ولتمييز النتيجة المثلى للتجميع، تم تصميم مؤشر داخلي للتأييد (internal validity index) خصيصًا لعملية التجميع، ويستند هذا المؤشر فقط إلى مصفوفة الترابط المشترك. أظهرت النتائج التجريبية على 16 مجموعة بيانات أن المنهجية المقترحة تفوق بعض الأساليب الرائدة في مجال تجميع التجميع.

التجميع المتعدد المستند إلى الأدلة المستخلصة من مصفوفة الترابط المشترك | أحدث الأوراق البحثية | HyperAI