دمج $K$-Means مع التجميع الهرمي لاكتشاف مجموعات ذات أشكال عامة

التصنيف العنقودي (Clustering) يقسم مجموعة بيانات بحيث تكون الملاحظات التي توضع معًا في مجموعات متشابهة ولكنها مختلفة عن تلك الموجودة في المجموعات الأخرى. هناك طريقتان رئيسيتان للتصنيف العنقودي هما التصنيف العنقودي الهرمي (Hierarchical Clustering) والتصنيف العنقودي بـ $K$-medoids ($K$-means Clustering)، لكنهما تتمتعان بمزايا وعيوب مختلفة. على سبيل المثال، يحدد التصنيف العنقودي الهرمي المجموعات في هيكل شجري ولكنه يعاني من التعقيد الحسابي في مجموعات البيانات الكبيرة، بينما يكون التصنيف العنقودي بـ $K$-medoids فعالًا ولكنه مصمم لاكتشاف مجموعات كروية متجانسة.نقدم هنا نهجًا هجينًا غير معلمي للتصنيف العنقودي يدمج بين الطريقتين لتحديد المجموعات ذات الأشكال العامة والتي يمكن تطبيقها على مجموعات بيانات أكبر. بشكل خاص، نقوم أولاً بتقسيم مجموعة البيانات إلى مجموعات كروية باستخدام التصنيف العنقودي بـ $K$-medoids. ثم ندمج هذه المجموعات باستخدام الطرق الهرمية مع استخدام مقاييس المسافة المستندة إلى البيانات كمعيار للتوقف. هذا المقترح لديه إمكانية كشف المجموعات ذات الأشكال والهياكل العامة في مجموعة البيانات. وقد أظهرنا أداءً جيدًا على عدة مجموعات بيانات محاكاة وحقيقية.