أخذ العينات القائمة على المجمع
تعد عملية أخذ العينات القائمة على التجمعات طريقة شائعة للتعلم النشط والتي تختار أمثلة إعلامية للتصنيف. يتم إنشاء مجموعة من البيانات غير المصنفة، ويختار النموذج الأمثلة الأكثر إفادة للتعليق عليها من قبل الإنسان. يتم استخدام هذه الأمثلة المصنفة لإعادة تدريب النموذج، ويتم تكرار العملية.
ميزة
- تقليل تكاليف وضع العلامات:بالمقارنة مع طرق التعلم الخاضع للإشراف التقليدية، فإن أخذ العينات المبني على التجميع يقلل من التكلفة الإجمالية للوسم لأنه يتطلب فقط وضع علامات على العينات الأكثر إفادة. يمكن أن يؤدي هذا إلى تحقيق وفورات كبيرة في التكاليف، خاصة عند العمل مع مجموعات بيانات كبيرة.
- الاستخدام الفعال لوقت الخبراء:وبما أن الخبراء يحتاجون فقط إلى وضع علامة على العينات التي تحتوي على أكبر قدر من المعلومات، فإن هذه الاستراتيجية يمكنها الاستفادة بشكل فعال من وقت الخبراء وتوفير الوقت والموارد.
- تحسين دقة النموذج:من المرجح أن تكون العينات المختارة أكثر إعلامية وتمثيلاً للبيانات، وبالتالي فإن أخذ العينات المستند إلى المجمع يمكن أن يحسن دقة النموذج.
عيب
- اختيار مجموعة البيانات غير المسمى:ستؤثر جودة البيانات المحددة على أداء النموذج، لذا فإن الاختيار الدقيق لمجموعة البيانات غير المسمى أمر بالغ الأهمية. قد يكون هذا أمرًا صعبًا، خاصةً مع مجموعات البيانات الكبيرة والمعقدة.
- جودة طريقة الاختيار:إن جودة طريقة الاختيار المستخدمة لاختيار العينات الأكثر إفادة سوف تؤثر على دقة النموذج. إذا كانت طريقة الاختيار غير مناسبة للبيانات أو تم تصميمها بشكل سيئ، فقد تتأثر دقة النموذج.
- غير مناسب لجميع أنواع البيانات:قد لا تكون العينات المبنية على التجميع مناسبة لجميع أنواع البيانات، مثل البيانات غير المنظمة أو البيانات المشوشة. في هذه الحالات، قد تكون طرق التعلم النشط الأخرى أكثر ملاءمة.
مراجع
【1】https://encord.com/glossary/pool-based-sampling/