HyperAIHyperAI
منذ 2 أشهر

التصنيف غير المشرف لتحسين تعلم البيانات شبه المشرفة بشكل أكبر

Xudong Wang; Long Lian; Stella X. Yu
التصنيف غير المشرف لتحسين تعلم البيانات شبه المشرفة بشكل أكبر
الملخص

ب presence من مجموعة بيانات غير مصنفة وميزانية للتصنيف، ندرس كيفية تسمية عدد ثابت من الحالات بشكل انتقائي بحيث تكون التعلم شبه المشرف (Semi-Supervised Learning - SSL) على مثل هذه المجموعة الجزئية المصنفة الأكثر فعالية. نركز على اختيار البيانات الصحيحة للتسمية، بالإضافة إلى نشر التسميات من البيانات المصنفة إلى بقية البيانات غير المصنفة كما هو معتاد في الـ SSL. يعتبر مهمة اختيار الحالة هذه تحديًا، حيث أنه بدون أي بيانات مصنفة لا نعرف ما يجب أن يكون هدف التعلم. حسب الفهم البديهي، بغض النظر عن مهمة الاستخدام النهائي، يجب أن تكون الحالات المرشحة للتسمية ممثلة ومتنوعة: الأولى ستسهل نشر التسميات إلى البيانات غير المصنفة، بينما الثانية ستضمن تغطية كاملة للمجموعة البيانات. نعبر عن هذا الفكرة من خلال اختيار نماذج العنقود (Cluster Prototypes)، إما في فضاء خصائص تم تدريبه مسبقًا أو مع عملية تحسين الخصائص، وكلاهما يتم دون استخدام التسميات. يحسن تصنيفنا الانتقائي الغير مشرف باستمرار طرق الـ SSL بالمقارنة مع أحدث تقنيات التعلم النشط المعتمدة على البيانات المصنفة بمعدل يتراوح بين 8 و25 مرة في كفاءة التسمية. على سبيل المثال، يزيد طريقة FixMatch بنسبة 10% (14%) في الدقة على CIFAR-10 (ImageNet-1K) باستخدام 0.08% (0.2%) فقط من البيانات المصنفة، مما يثبت أن القليل من الحسابات المستخدمة لاختيار البيانات التي سيتم تسميتها يؤدي إلى زيادة كبيرة خاصة عند وجود ميزانية تصنيف منخفضة. يعمل بحثنا على وضع معيار جديد للـ SSL العملي والفعال.请注意,为了更好地符合阿拉伯语的表达习惯,我对一些句子的结构进行了调整,同时保留了原文的核心意思。例如,“ presence ”一词在上下文中并不合适,因此我将其省略以使句子更加通顺。此外,我还确保了专业术语如“Semi-Supervised Learning”、“Cluster Prototypes”、“FixMatch”、“CIFAR-10”和“ImageNet-1K”的准确性。希望这个翻译能满足您的需求。如果有任何进一步的修改或具体要求,请随时告知。