GSCAN: تجميع استقرار الرسم البياني للتطبيقات ذات الضوضاء باستخدام كتلة الفائض المعتمدة على الحواف

يُعد تجميع الرسوم البيانية (Graph Clustering) ضروريًا لتحديد المجتمعات والمجموعات داخل شبكة معينة. في السنوات الأخيرة، تم بذل جهود متعددة لتطوير أدوات مناسبة لهذا الغرض. وعلى وجه الخصوص، تعتمد هذه الجهود الحديثة على أحدث التطورات في التعلم العميق، وخاصةً في الشبكات العصبية للرسوم البيانية (Graph Neural Networks - GNN). وعلى الرغم من أن بعض الأساليب تأخذ في الاعتبار البنية الهيكلية الداخلية للرسم البياني طوال العملية، فإن الأساليب الرائدة في التجميع تتجاهل هذه البنية في المرحلة النهائية لتحديد المجموعات، مما يؤدي إلى نتائج غير مثالية. في هذا البحث، نقترح GSCAN: تجميع استقرار الرسم البياني للتطبيقات التي تحتوي على ضوضاء، والذي يعتمد على كل من ميزات العقد والبنية الهيكلية للرسم البياني. نعتمد في نهجنا على الطريقة الشهيرة المعروفة بـ "فائض الكتلة" (Excess-of-Mass - EoM)، التي تستند إلى مبدأ تحسين استقرار المجموعات. تتميز هذه الطريقة بخصائص مرغوبة إضافية، مثل المقاومة للقيم الشاذة (outliers)، وعدم الحاجة إلى تحديد عدد المجموعات مسبقًا. ونقوم بتوسيع طريقة EoM لتعمل على البنية الهيكلية الأساسية للرسم البياني، ونقترح طريقتين ممكنتين للمعالجة اللاحقة لمعالجة أحد عيوب EoM، وهو ميلها إلى تحديد عدد كبير جدًا من النقاط على أنها قيم شاذة. تُستخدم هذه العمليات اللاحقة في استغلال البنية الهيكلية للرسم البياني، مما يؤدي إلى أداء متفوق، حتى مقارنةً بالأساليب الرائدة في التجميع التي تُدرَّب بطريقة نهاية-إلى-نهاية (end-to-end). ونُظهر أن النهج المقترح يمكن تنفيذه بطريقة سريعة وقابلة للتوسع. تُدعم هذه المطالبات عبر ثلاث مجموعات بيانات معروفة جيدًا كمراجع (benchmarks). يمكن الوصول إلى الكود الخاص بنا من خلال الرابط التالي: https://github.com/GraphEoM/GSCAN