مقياس التشابه
مقاييس التشابهيتم استخدامه لتقدير التشابه بين العينات المختلفة وغالبًا ما يتم استخدامه كمعيار لمشاكل التصنيف. في التعلم الآلي واستخراج البيانات، غالبًا ما يكون من الضروري معرفة حجم الاختلافات بين الأفراد من أجل تقييم أوجه التشابه وفئات الأفراد.
حاليًا، الأكثر شيوعًا هي تحليل الارتباط في تحليل البيانات، وخوارزميات التصنيف وخوارزميات التجميع في تعدين البيانات، مثل خوارزمية أقرب جار KNN وخوارزمية K-Means K-Means، وما إلى ذلك. يمكن استخدام طرق قياس مختلفة وفقًا لخصائص البيانات المختلفة.
مقاييس المسافة والتشابه
- قياس المسافة: يستخدم لقياس المسافة بين الأفراد في المكان. كلما زادت المسافة، كلما زاد الاختلاف بين الأفراد.
- مقياس التشابه: يحسب مدى التشابه بين الأفراد. كلما كانت قيمة مقياس التشابه أصغر، كلما كان التشابه بين الأفراد أصغر وكان الاختلاف أكبر.
طرق قياس التشابه المستخدمة بشكل شائع
- تشابه جيب التمام في فضاء المتجهات: يستخدم قيمة جيب التمام للزاوية بين متجهين كمقياس لحجم الفرق بين الأفراد. وبالمقارنة مع مقياس المسافة، فإنه يركز أكثر على الفرق في الاتجاه بين متجهين بدلاً من المسافة أو الطول.
- معامل ارتباط بيرسون: معامل الارتباط r في تحليل الارتباط، والذي يتم حسابه عن طريق توحيد X وY على التوالي ثم حساب زاوية جيب التمام لمتجه الفضاء؛
- معامل جاكارد: يستخدم بشكل رئيسي لحساب التشابه بين أفراد القياس الرمزي والقياس البولياني. نظرًا لأن السمات المميزة للأفراد تعتمد على القياس الرمزي أو تحديد القيمة المنطقية، فمن المستحيل قياس القيمة المحددة للاختلاف، ويمكن فقط الحصول على استنتاج "ما إذا كانا متماثلين". لذلك فإن معامل جاكارد يحدد فقط الخصائص المشتركة بين الأفراد.
- تشابه جيب التمام المعدل: إن عدم حساسية تشابه جيب التمام للقيم العددية قد يؤدي إلى انحرافات في النتائج. يتم استخدام تشابه جيب التمام المعدل بشكل أساسي لتصحيح هذه اللاعقلانية، أي أن المخرجات في جميع الأبعاد يتم طرحها من المتوسط.