اختيار الميزة
اختيار الميزة هي عملية عزل المجموعة الفرعية الأكثر اتساقًا وغير مكررة وذات صلة من الميزات لبناء النموذج. مع استمرار نمو مجموعات البيانات من حيث الحجم والتنوع، من المهم تقليل حجم مجموعة البيانات بشكل منهجي. الهدف الرئيسي من اختيار الميزة هو تحسين أداء النماذج التنبؤية وتقليل التكلفة الحسابية للنمذجة.
مثال على استخدام اختيار الميزة
يعد اختيار الميزة تقنية معالجة مسبقة فعالة لمختلف التطبيقات العملية، مثل تصنيف النصوص، والاستشعار عن بعد، واسترجاع الصور، وتحليل المصفوفات الدقيقة، وقياس الطيف الكتلي، وتحليل التسلسل، وما إلى ذلك.
وفيما يلي بعض الأمثلة الواقعية لاختيار الميزات:
- تحليل الصور الشعاعية للثدي
- نمذجة السلوك الإجرامي
- تحليل البيانات الجينومية
- مراقبة المنصة
- تقييم السلامة الميكانيكية
- تجميع النصوص
- تصنيف الصور الطيفية الفائقة
- تحليل التسلسل
أهمية اختيار الميزة
أثناء عملية التعلم الآلي، يمكن أن يؤدي استخدام تحديد الميزة إلى جعل العملية أكثر دقة. كما أنه يعمل على تحسين القدرة التنبؤية للخوارزمية من خلال اختيار المتغيرات الأكثر أهمية وإزالة المتغيرات المكررة وغير ذات الصلة. ولهذا السبب يعد اختيار الميزة أمرًا مهمًا.
الفوائد الرئيسية الثلاثة لاختيار الميزة هي:
- تقليل الإفراط في التجهيز
البيانات المكررة تعني فرصة أقل لاتخاذ القرارات بناءً على الضوضاء. - تحسين الدقة
إن البيانات الأقل تضليلاً تعني دقة أكبر في النمذجة. - تقليل وقت التدريب
قلة البيانات تعني خوارزميات أسرع.
طرق اختيار الميزات
تنقسم خوارزميات اختيار الميزات إلى خوارزميات خاضعة للإشراف وغير خاضعة للإشراف: يمكن استخدام الخوارزمية الخاضعة للإشراف للبيانات المسمّاة، ويمكن استخدام الخوارزمية غير الخاضعة للإشراف للبيانات غير المسمّاة. يتم تصنيف التقنيات غير الخاضعة للإشراف إلى طرق تصفية، وطرق تغليف، وطرق تضمين، أو طرق هجينة:
- طريقة التصفية:تعمل طرق التصفية على تحديد الميزات استنادًا إلى الإحصائيات وليس على أداء التحقق المتبادل من اختيار الميزات. قم بتطبيق المقياس المحدد لتحديد السمات غير ذات الصلة وإجراء تحديد متكرر للميزات. يمكن أن تكون طرق التصفية أحادية المتغير، حيث يتم بناء قائمة مرتبة مرتبة من الميزات لإعلام الاختيار النهائي لمجموعة فرعية من الميزات، أو متعددة المتغيرات، والتي تقوم بتقييم مدى أهمية مجموعة الميزات بأكملها، وتحديد الميزات المكررة وغير ذات الصلة.
- طريقة التعبئة والتغليف:تتعامل طرق اختيار ميزات الغلاف مع اختيار مجموعة من الميزات باعتبارها مشكلة بحث، حيث تقوم بتقييم جودة الميزات من خلال إعداد مجموعات الميزات وتقييمها ومقارنتها مع مجموعات الميزات الأخرى. تساعد هذه الطريقة على اكتشاف التفاعلات المحتملة بين المتغيرات. ترتكز طرق التغليف على مجموعة فرعية من الميزات التي ستساعد في تحسين جودة نتائج خوارزمية التجميع المستخدمة في التحديد. تتضمن الأمثلة الشائعة اختيار ميزة Boruta واختيار ميزة Forward.
- الطريقة المضمنة:تدمج طرق اختيار الميزات المضمنة خوارزميات التعلم الآلي لاختيار الميزات كجزء من خوارزمية التعلم، حيث يتم إجراء التصنيف واختيار الميزات في وقت واحد. استخرج بعناية الميزات التي تساهم بشكل أكبر في كل تكرار لعملية تدريب النموذج. يعد اختيار ميزة الغابة العشوائية واختيار ميزة شجرة القرار واختيار ميزة LASSO من طرق التضمين الشائعة.
مراجع
【1】https://www.heavy.ai/technical-glossary/feature-selection