التكافؤ في التجميع الطيفي باستخدام ميزات التجزئة العشوائية

التصنيف الطيفي هو أحد أكثر نهج التجميع فعالية التي تلتقط الهياكل المخفية في البيانات. ومع ذلك، لا يتوسع بشكل جيد لمشكلات كبيرة الحجم بسبب تعقيده التربيعي في بناء الرسوم البيانية للتشابه وحساب التحليل الذاتي اللاحق. رغم اقتراح العديد من الطرق لتسريع التصنيف الطيفي، فإن معظمها تتسبب في فقدان ملحوظ للمعلومات الأصلية في البيانات من أجل تقليل العقبات الحسابية. في هذا البحث، نقدم طريقة جديدة قابلة للتوسع في التصنيف الطيفي باستخدام ميزات Random Binning (RB) لتسريع كل من بناء الرسم البياني للتشابه والتحليل الذاتي بشكل متزامن. تحديداً، نقوم بتقريب ضمني لمصفوفة التشابه (النواة) للرسم البياني عن طريق حاصل الضرب الداخلي لمصفوفة ميزات كبيرة ونادرة تم إنشاؤها بواسطة RB. ثم نقدم حلّال SVD الأكثر تقدماً لحساب المتجهات الذاتية لهذه المصفوفة الكبيرة لأغراض التصنيف الطيفي. باستخدام هذين المكونين الأساسيين، نقلل من الكلفة الحسابية من التعقيد التربيعي إلى التعقيد الخطي في عدد نقاط البيانات مع تحقيق دقة مشابهة. تظهر تحليلنا النظري أن التصنيف الطيفي عبر RB يتقارب بشكل أسرع مع التصنيف الطيفي الدقيق مقارنة بالتقريب القياسي لميزات عشوائية. أجريت تجارب واسعة على 8 مقاييس مرجعية أظهرت أن الطريقة المقترحة إما تتفوق أو تتطابق مع أفضل الطرق المعروفة في كل من الدقة والوقت التشغيلي. بالإضافة إلى ذلك، فإن طرحتنا تتميز بالقابلية للتوسع الخطّي سواء في عدد عينات البيانات أو في عدد ميزات RB.