HyperAI

5 فصول، 25 مواصفة، موسوعة شاملة لاختيار وإنشاء مجموعات البيانات

منذ 2 أعوام
معلومة
Yinrong Huang
特色图像

المحتويات في لمحة:إذا كنت تتعلم كيفية إنشاء أو اختيار مجموعة بيانات مناسبة، فسوف يقدم لك هذا المنشور بعض النصائح العملية لمساعدتك في اتخاذ قرارات مستنيرة عند اختيار مجموعات البيانات وإنشائها.

الكلمات المفتاحية:مجموعات بيانات التعلم الآلي   

تم نشر هذه المقالة لأول مرة على منصة HyperAI WeChat العامة~

المؤلف | شيشي

التدقيق اللغوي | سانيانغ

لا يمكن لمجموعة البيانات عالية الجودة تحسين دقة وكفاءة تشغيل النموذج فحسب، بل يمكنها أيضًا توفير وقت التدريب وموارد الحوسبة.

في هذه المقالة،نشير إلى مقالة جان مارسيل كيزمان بعنوان "ما يجب وما لا يجب فعله في اختيار مجموعة البيانات للتعلم الآلي والذي يجب أن تكون على دراية به"، والذي يشرح بالتفصيل طرق إنشاء مجموعات البيانات وتحديدها. آمل أن يساعد ذلك مهندسي علوم البيانات على تجنب الأخطاء وممارسة أفضل الممارسات لتدريب النماذج. دعونا نلقي نظرة على النصائح~

اقرأ المقال الأصلي باللغة الإنجليزية:

https://medium.com/mlearning-ai/the-dos-and-donts-of-dataset-selection-for-machine-learning-you-have-to-be-aware-of-8b14513d94a

جدول المحتويات

1. أفضل الممارسات لاختيار مجموعات البيانات

2. كن على دراية بالفخاخ التي يجب تجنبها

3. 5 نصائح

4. أفضل الممارسات لإنشاء مجموعات البيانات

5. تقييم مجموعة البيانات

الأشخاص المعنيون:

المبتدئين وعلماء البيانات وممارسي التعلم الآلي

1. أفضل الممارسات لاختيار مجموعات البيانات

سيتناول هذا القسم أفضل الممارسات لاختيار مجموعات البيانات العامة.هناك 6 خطوات رئيسية يجب وضعها في الاعتبار:

1.1 فهم المشكلة 

من المهم فهم المشكلة التي تريد حلها، بما في ذلك تحديد متغيرات الإدخال والإخراج، ونوع المشكلة (التصنيف، الانحدار، التجميع، وما إلى ذلك)، ومقياس الأداء.

1.2 تحديد المشكلة 

قم بتضييق نطاق مجموعة البيانات من خلال تحديد الصناعة أو المجال، ونوع البيانات المطلوبة (النص، والصور، والصوت، وما إلى ذلك)، وأي قيود مرتبطة بمجموعة البيانات.

1.3 التركيز على الجودة 

ابحث عن مجموعات البيانات الموثوقة والدقيقة والمتعلقة بمشكلتك.تحقق من البيانات المفقودة والقيم المتطرفة والتناقضات، حيث يمكن أن تؤثر هذه المشكلات سلبًا على أداء النموذج الخاص بك.

1.4 ضع في اعتبارك حجم مجموعة البيانات 

يؤثر حجم مجموعة البيانات على دقة النموذج وقدرته على التعميم.في حين تساعد مجموعات البيانات الأكبر على تحسين دقة النموذج وقوته، فإنها تعني أيضًا المزيد من موارد الحوسبة ووقت تدريب أطول.

1.5 تحيز الفحص 

قد يؤدي التحيز في مجموعة البيانات إلى توقعات غير عادلة أو غير دقيقة. كن على دراية بالتحيزات المتعلقة بعملية جمع البيانات، مثل تحيز العينة، والتحيزات المتعلقة بالقضايا الاجتماعية، مثل الجنس أو العرق أو الوضع الاجتماعي والاقتصادي.

1.6 السعي إلى التنوع 

إن اختيار مجموعة بيانات متنوعة من مصادر أو مجموعات سكانية أو مواقع مختلفة يمكن أن يساعد النموذج على التعلم من مجموعة متنوعة من الأمثلة المختلفة وتجنب الإفراط في التجهيز.

2. كن على دراية بالفخاخ التي يجب تجنبها

ينطبق هذا القسم على مجموعات البيانات المحددة مسبقًا ومجموعات البيانات التي تقوم بإنشائها بنفسك.

2.1 بيانات غير كافية

قد يؤدي عدم كفاية البيانات إلى فشل النموذج في التقاط الأنماط الأساسية في البيانات، مما يؤدي إلى ضعف الأداء. إذا لم تكن هناك بيانات كافية، فيمكنك التفكير في استخدام تقنيات مثل زيادة البيانات أو التعلم بالنقل لتحسين قدرات مجموعة البيانات أو النموذج. إذا كانت العلامات متسقة، فمن الممكن دمج مجموعات البيانات المتعددة في مجموعة واحدة.

2.2 الفئات غير المتوازنة

يعني اختلال التوازن في الفئات أن عدد العينات في فئة واحدة أكبر بشكل ملحوظ من عدد العينات في فئة أخرى، مما قد يؤدي إلى تحيز التنبؤ أو أخطاء أخرى في النموذج. ولمعالجة هذه المشكلة، يتم اقتراح تقنيات مثل الإفراط في أخذ العينات، أو نقص أخذ العينات، أو ترجيح الفئة. إن تعزيز الطبقات غير الممثلة يمكن أن يقلل من هذه المشكلة أيضًا.

نصائح لطيفة:

تتمتع مهام التعلم الآلي المختلفة بتأثيرات مختلفة على النموذج بسبب عدم التوازن بين الفئات. على سبيل المثال، في مهام اكتشاف الشذوذ، يعد اختلال التوازن الشديد في الفئة أمرًا طبيعيًا؛ ومع ذلك، فإن هذا أقل شيوعًا في مشكلات تصنيف الصور القياسية.

2.3 القيم المتطرفة 

القيم المتطرفة هي نقاط بيانات تختلف بشكل كبير عن عينات البيانات الأخرى ويمكن أن تؤثر سلبًا على أداء النموذج.إذا كانت مجموعة البيانات تحتوي على عدد كبير جدًا من القيم المتطرفة، فغالبًا ما يواجه نموذج التعلم الآلي أو التعلم العميق صعوبة في تعلم التوزيع المطلوب.

فكر في استخدام تقنيات مثل Winsorization لإزالة القيم المتطرفة أو تصحيحها، أو استخدام المتوسط/الوسيط لاستبدال جميع القيم المفقودة الموجودة في العينة بالمتوسط أو الوسيط.

2.4 التطفل على البيانات وتسريبها 

لتجنب التطفل على البيانات، والذي قد يؤدي إلى الإفراط في التجهيز وانخفاض الأداء،يجب عليك تقسيم مجموعة البيانات الخاصة بك إلى مجموعات التدريب والتحقق والاختبار، واستخدام مجموعة التدريب فقط لتدريب النموذج الخاص بك.

من ناحية أخرى، فإن تدريب النموذج باستخدام البيانات من مجموعة الاختبار سيؤدي إلى تسرب البيانات، مما يؤدي إلى تقديرات أداء متفائلة بشكل مفرط. لتجنب تسرب البيانات، يجب عليك دائمًا الاحتفاظ بمجموعات التحقق والاختبار منفصلة واستخدامها فقط لتقييم النموذج النهائي.

3. 5 نصائح

  • في التعلم الانتقالي، يتم استخدام نموذج مدرب مسبقًا لحل مشكلة ذات صلة، وبالنسبة لمشكلة محددة، يمكن ضبطه بدقة باستخدام مجموعة بيانات أصغر.
  • دمج مجموعات بيانات متعددة لزيادة حجم وتنوع مجموعة البيانات الخاصة بك، مما يؤدي إلى إنشاء نماذج أكثر دقة وقوة. ويجب الاهتمام بقضايا توافق البيانات والجودة.
  • استخدم التعهيد الجماعي لجمع كميات كبيرة من البيانات المصنفة بسرعة وبتكلفة منخفضة. تتطلب قضايا مراقبة الجودة والانحراف الاهتمام.
  • راقب واجهات برمجة التطبيقات الخاصة بالبيانات من مختلف الشركات والمؤسسات للوصول إلى بياناتها بطريقة تشبه الكود.
  • تحقق من معايير التقييم المتاحة التي توفر مجموعات بيانات موحدة ومقاييس تقييم لمقارنة أداء النماذج المختلفة لنفس المشكلة.

 4. أفضل الممارسات لإنشاء مجموعات البيانات

4.1 تحديد المشكلة والأهداف 

قبل جمع أي بيانات، يجب أن يكون لديك فكرة واضحة عن المتغير المستهدف الذي تريد التنبؤ به، ونطاق المشكلة التي تريد حلها، والاستخدام المقصود لمجموعة البيانات.

يساعد توضيح المشكلة والهدف على التركيز على جمع البيانات ذات الصلة.تجنب إهدار الوقت والموارد على بيانات غير ذات صلة أو غير واضحة، مع المساعدة في فهم الافتراضات والقيود الخاصة بمجموعة البيانات.

4.2 جمع مجموعات بيانات متنوعة وممثلة 

يضمن جمع البيانات من مصادر ومجالات مختلفة أن تكون مجموعة البيانات ممثلة للمشاكل في العالم الحقيقي.يتضمن ذلك جمع البيانات من مواقع وديموغرافيات وفترة زمنية مختلفة، مع التأكد من أن مجموعة البيانات ليست متحيزة تجاه مجموعة أو قطاع معين.

بالإضافة إلى ذلك، تأكد من أن البيانات لا تحتوي على أي متغيرات مربكة، وهي متغيرات ثالثة غير مقاسة تؤثر على السبب المفترض والتأثير المفترض، وبالتالي تؤثر على النتائج.

4.3 قم بتسمية بياناتك بعناية 

استخدم ملصقات واضحة تعكس الحقيقة الأساسية بوضوح لشرح البيانات، واستخدم العديد من المعلقين أو التعهيد الجماعي لتقليل تأثير التحيز الشخصي على البيانات وتحسين جودة الملصقات وموثوقيتها. يوصى بالتحكم في إصدارات بياناتك لتسهيل تتبع عملية التدريب والتقييم ومشاركتها وإعادة إنتاجها.

نصائح لطيفة:

إذا كانت مجموعة البيانات تحتوي فقط على العلامات الصحيحة لـ 80%، فلن يكون أفضل نموذج أكثر دقة من 80% في معظم الحالات.

4.4 ضمان جودة البيانات وسلامتها 

تشير جودة البيانات إلى دقة البيانات واكتمالها وتناسقها.يمكن أن تساعد التقنيات مثل تنظيف البيانات واكتشاف القيم المتطرفة واستيفاء القيمة المفقودة في تحسين جودة مجموعة البيانات. بالإضافة إلى ذلك، عليك التأكد من أن البيانات موجودة بتنسيق يسهل على خوارزميات التعلم الآلي فهمه ومعالجته.

4.5 ضمان خصوصية البيانات وأمنها

لحماية الخصوصية، من الضروري التأكد من أن جمع البيانات وتخزينها آمن وأن أي معلومات حساسة مجهولة المصدر أو مشفرة. بالإضافة إلى ذلك، فكر في استخدام التشفير لحماية البيانات أثناء نقلها أو تخزينها.

نصائح لطيفة:

انتبه إلى مواصفات استخدام بيانات التحقق للتأكد من أنها تتوافق مع القوانين واللوائح.

5. تقييم مجموعة البيانات

تحقق مما إذا كانت مجموعة البيانات تلبي المعايير الخمسة التالية بشكل كافٍ:

  • حجم البيانات:بشكل عام، كلما زادت البيانات، كان ذلك أفضل.
  • توزيع البيانات:تأكد من أن مجموعة البيانات متوازنة وتمثيلية.
  • جودة البيانات:البيانات النظيفة والمتسقة والخالية من الأخطاء أمر بالغ الأهمية
  • تعقيد البيانات:تأكد من أن البيانات ليست معقدة للغاية.
  • أهمية البيانات:ينبغي أن تكون البيانات ذات صلة بالمشكلة.

ما ورد أعلاه هو المحتوى الكامل لدليل اختيار وإنشاء مجموعة البيانات. يعد اختيار مجموعة البيانات المناسبة هو مفتاح التعلم الآلي. آمل أن يساعدك هذا الدليل في اختيار أو إنشاء مجموعة بيانات عالية الجودة وتدريب نماذج دقيقة وقوية!

  تنزيل مجموعات البيانات العامة الضخمة عبر الإنترنت

حتى الآن، أطلق الموقع الرسمي لشركة HyperAI أكثر من 1200 مجموعة بيانات عامة عالية الجودة، وأكمل ما يقرب من 500 ألف عملية تنزيل، وساهم بأكثر من 2000 تيرابايت من حركة المرور، مما أدى إلى خفض عتبة الوصول إلى مجموعات البيانات العامة عالية الجودة في الداخل والخارج بشكل كبير.

قم بزيارة الرابط التالي للبحث عن مجموعة البيانات التي تحتاجها وتنزيلها على الفور وبدء رحلة تدريب النموذج الخاصة بك!

قم بزيارة الموقع الرسمي: https://orion.hyper.ai/datasets

تم نشر هذه المقالة لأول مرة على منصة HyperAI WeChat العامة~