تحليل المكونات الرئيسية
تحليل المكونات الرئيسية PCA هي تقنية لتحليل وتبسيط مجموعات البيانات. ويستخدم فكرة تقليل الأبعاد لتحويل المؤشرات المتعددة إلى مؤشرات شاملة أقل عددا. PCA هي طريقة تستخدم تحليل كمية الميزة كتوزيع إحصائي متعدد المتغيرات.
تم اقتراح تحليل المكونات الرئيسية بواسطة كارل بيرسون في عام 1901 وتم استخدامه في الأصل لتحليل البيانات وإنشاء النماذج الرياضية. يقوم بشكل أساسي بإجراء التحليل الذاتي على مصفوفة التغاير للحصول على المكونات الرئيسية للبيانات وأوزانها.
تنفيذ خوارزمية PCA
تتمثل العملية المحددة لـ PCA في العثور على مركز البيانات واستبدال البيانات الأصلية بالعوامل الأكثر أهمية في البيانات. على سبيل المثال، مجموعة البيانات هي n الأبعاد وتحتوي على m بيانات (x (1)، x (2)، …، x (m)). بافتراض أنك تريد تقليل أبعاد هذه البيانات m من n بُعد إلى n' بُعد، فإن مجموعات البيانات هذه ذات n' من الأبعاد m ستحل محل مجموعات البيانات الأصلية وتقلل الخسارة في نفس الوقت.
تطبيقات PCA
- تحليل البيانات الاستكشافي
- معالجة البيانات مسبقًا وتقليل الأبعاد
- ضغط البيانات وإعادة بنائها
مزايا وعيوب خوارزمية تحليل المكونات الرئيسية
مزايا خوارزمية PCA هي:
- يمكن قياس كمية المعلومات من خلال التباين فقط، والذي لا يتأثر بعوامل خارج مجموعة البيانات؛
- المكونات الرئيسية متعامدة مع بعضها البعض، مما يمكن أن يزيل التأثير المتبادل بين مكونات البيانات الأصلية؛
- طريقة الحساب بسيطة، والعملية الرئيسية هي تحليل القيمة الذاتية، ومن السهل تنفيذها.
عيوب خوارزمية PCA هي:
- إن معنى كل بعد مميز للمكون الرئيسي غامض وغير واضح مثل خصائص العينة الأصلية؛
- قد تحتوي المكونات ذات التباين الصغير على معلومات مهمة تؤثر على اختلافات العينة، وقد يؤدي التخلص منها أثناء تقليل الأبعاد إلى التأثير على معالجة البيانات اللاحقة.