HyperAIHyperAI

Command Palette

Search for a command to run...

Day 1 من "مُتَقَدِّمَة التعلُّم الآلي": نموذج الانحدار k-NN في إكسل يبدأ مُتَقَدِّمَة التعلُّم الآلي في إكسل بتحليل خوارزمية الانحدار k-NN (k-أقرب الجيران)، وهي واحدة من أبسط النماذج التي تُستخدم في التعلُّم الآلي، لكنها مليئة بالدروس الدقيقة التي لا تُدرَّس غالبًا في الكورسات التقليدية. في هذا اليوم الأول، نستعرض كيف يمكن تنفيذ نموذج k-NN الانحداري في إكسل باستخدام بيانات سكنية حقيقية من "مجموعة بيانات السكن في كاليفورنيا"، مع استغلال دوال إكسل مثل RANK، IF، وSUMPRODUCT لفهم آلية العمل من الداخل. الفكرة الأساسية لـ k-NN بسيطة جدًا: إذا كنت ترغب في تقدير سعر شقة، فما عليك سوى النظر إلى الشقق المشابهة في حجمها أو موقعها، ثم حساب المتوسط. هذا هو جوهر الخوارزمية — البحث عن أقرب الملاحظات (الجيران) بناءً على معيار المسافة، ثم استخدام قيمها للتنبؤ بقيمة جديدة. نبدأ بتحليل بيانات من 10 ملاحظات باستخدام متغير مستمر واحد فقط (الدخل المتوسط)، ثم ننتقل إلى متغيرين، ونكتشف كيف أن التحجيم (scaling) يؤثر بشكل كبير على النتائج. ونصل أخيرًا إلى تطبيق حقيقي باستخدام مجموعة بيانات كاليفورنيا الكاملة، حيث نكتشف أن المسافة الإقليدية ليست كافية عندما تكون المتغيرات مختلفة الطبيعة — مثل الدخل، عمر المنازل، عدد الغرف، والخطوط الجغرافية. من أهم الدروس: - k-NN لا يتعلم أثناء التدريب، بل يعتمد على البيانات الأصلية. - لا يوجد آلية داخلية في k-NN لتصحيح اختلاف الوحدات أو التحجيم بين المتغيرات. - اختيار مقياس المسافة (مثل الإقليدية، المانهاتانية، أو الجغرافية) ليس مجرد تفصيل تقني، بل يحدد كيف يرى النموذج العالم. - عند التعامل مع متغيرات فئوية (مثل جودة الألماس)، فإن الترميز الثنائي (One-Hot) قد يُحدث مشكلة: كل فئة مختلفة تكون على نفس المسافة، مما لا يعكس الترتيب الحقيقي في التصنيف. - الترميز الترتيبي (Ordinal Encoding) بناءً على خبرة متخصصة يُحدث فرقًا كبيرًا في دقة التنبؤ. النتيجة؟ k-NN نموذج بسيط جدًا، لكنه يكشف عن مشكلات عميقة في التعلم الآلي: التحجيم، معنى المتغيرات، وطريقة قياس التشابه. ورغم بساطته، فهو يُظهر أن "النموذج" الحقيقي ليس فقط في الخوارزمية، بل في كيفية صياغة البيانات وتحديد المسافة. في النهاية، السؤال الأهم: هل k-NN نموذج تعلُّم آلي حقًا؟ ربما لا، لكنه نموذج يُعلّمنا كيف نفكر في التعلم الآلي — من خلال التشابه، والمسافة، والواقع الملموس. ومن خلال تنفيذ هذا النموذج في إكسل، نكتسب فهمًا عميقًا لا يمكن الحصول عليه من خلال البرمجة فقط. فالمفتاح ليس في الكود، بل في الفهم.

يبدأ "مُذَكّر الآلة" لتعلم الآلة بخوارزمية k-NN (الجيران الأقربون) في برنامج Excel، كنقطة بداية بسيطة لكنها قوية لفهم مبادئ التعلم الآلي. الفكرة الأساسية تتمثل في التنبؤ بقيمة جديدة من خلال احتساب المتوسط الحسابي للقيم المرتبطة بأقرب الملاحظات في البيانات التدريبية، بناءً على مقياس المسافة. في المثال الأول، يتم استخدام ميزة واحدة فقط (الدخل المتوسط) لتقدير قيمة منزل جديد عند x=10. لا يتطلب النموذج تدريبًا تقليديًا، إذ يُستخدم البيانات الأصلية مباشرة، بينما يتم اختيار عدد الجيران k كمعلمة قابلة للضبط (كما في k=3). يتم حساب المسافة كقيمة مطلقة للفرق، ثم تُحدد أقرب 3 ملاحظات باستخدام دالة RANK، وتُحسب القيمة التنبؤية باستخدام SUMPRODUCT لجمع متوسط القيم المرتبطة بهذه الملاحظات. عند التوسع إلى ميزتين مستمرتين (مثل الدخل والمساحة)، تُستخدم المسافة الإقليدية، لكن يظهر مشكلة جوهرية: التباين في المقياس بين الميزات. فمثلاً، إذا تم ضرب إحدى الميزات بـ10، فإنها تصبح مهيمنة على المسافة، مما يُغيّر النتائج بشكل غير منطقي. هذه المشكلة تُظهر أن k-NN لا يُعالج التباين التلقائي للميزات، وبالتالي يجب معالجتها يدويًا عبر التوحيد (مثل التوحيد القياسي أو التحجيم بين 0 و1). في بيانات السكن بكاليفورنيا الحقيقية، تتفاقم المشكلة بسبب تنوع طبيعة الميزات: بعضها بالدولار، وبعضها بالدرجات الجغرافية، وبعضها بالعدد. استخدام المسافة الإقليدية هنا يُصبح غير منطقي، لأنها لا تراعي الفروقات الجوهرية بين الوحدات. الحل الأفضل هو استخدام مسافات مخصصة، مثل المسافة الجغرافية الحقيقية بين خطوط الطول والعرض، أو المسافة المانهاتن في السياقات الشبكية. عند التعامل مع الميزات الفئوية (مثل جودة الماس)، يُظهر المقال أن الترميز الثنائي (One-Hot) لا يُناسب k-NN، لأن كل فئة مختلفة تكون على نفس المسافة، مما يُهمل التسلسل الطبيعي في التصنيف. أما الترميز الترتيب (Ordinal) المستند إلى خبرة متخصصة (مثل تعيين قيم 1 لـ IF و10 لـ I1)، فيُنتج مسافات معقولة، ويُوازن تأثير الميزات المختلفة. الخلاصة: k-NN نموذج بسيط، غير خطي، ومحلي تمامًا، يعتمد فقط على أقرب الجيران. لكنه يكشف مشكلات جوهرية في التعلم الآلي: التحجيم، اختيار المسافة المناسبة، وتمثيل الميزات. هذه المشاكل تُظهر أن النموذج ليس مجرد "حساب متوسط"، بل يعتمد على فهم عميق للبيانات وطبيعة الميزات. ورغم بساطته، يُعد k-NN أداة تعليمية قوية لفهم كيف تؤثر التفاصيل التقنية على النتائج، ويشكل نقطة انطلاق لاستكشاف نماذج أكثر تقدمًا تُعالج هذه التحديات تلقائيًا.

الروابط ذات الصلة