HyperAIHyperAI
منذ 11 أيام

BERT-Sort: مشغل ترميز معنوي من نوع MLM بدون عينات على السمات الترتيبية لـ AutoML

{Mukul Prasad, Lei Liu, Wei-Peng Chen, Mehdi Bahrami}
BERT-Sort: مشغل ترميز معنوي من نوع MLM بدون عينات على السمات الترتيبية لـ AutoML
الملخص

المعالجة المسبقة للبيانات تعد إحدى الخطوات الأساسية في إنشاء أنظمة تعلم الآلة لبيانات الجداول. من العمليات الشائعة في المعالجة المسبقة للبيانات التي تنفذها أنظمة أوتوماتيكيّة لتعلم الآلة (AutoML) هو تحويل السمات الفئوية إلى سمات رقمية. وعادةً ما يتم ذلك باستخدام ترتيب أبجدي بسيط على القيم الفئوية، باستخدام وظائف مثل OrdinalEncoder وLabelEncoder في مكتبات Scikit-Learn وH2O. ومع ذلك، غالبًا ما توجد علاقات ترتيبية معنوية بين القيم الفئوية، مثل مستويات الجودة (مثلاً: [“ممتاز” > “جيد” > “متوسط” > “سيء”]) أو الأشهر (مثلاً: [“يناير” < “فبراير” < “مارس”]). لا تُستغل هذه العلاقات المعنوية في النماذج السابقة لـ AutoML. في هذه الورقة البحثية، نقدّم BERT-Sort، منهجية جديدة لتمثيل قيم السمات الفئوية المرتبة بشكل معنوي باستخدام نماذج لغوية مُقنَّعة صفرية (Zero-shot Masked Language Models - MLM)، ونطبّقها على أنظمة AutoML للبيانات الجدولية. وقد أنشأنا معيارًا جديدًا يتألف من 42 سمة مستمدة من 10 مجموعات بيانات عامة، لأول مرة، لتصنيف القيم الفئوية المرتبة، حيث أظهر BERT-Sort تحسّنًا كبيرًا في تمثيل القيم المرتبة معزيزًا بنسبة 27% مقارنة بالأساليب الحالية. وقمّا بإجراء تقييم شامل لـ BERT-Sort على عدة نماذج MLM عامة، مثل RoBERTa وXLM وDistilBERT. كما قارنا أداء المجموعات الأصلية للبيانات مع المجموعات المُشفرة باستخدام BERT-Sort في منصات AutoML المختلفة، بما في ذلك AutoGluon وFLAML وH2O وMLJAR، لتقييم الأسلوب المقترح في سيناريو عمل متكامل من البداية إلى النهاية.

BERT-Sort: مشغل ترميز معنوي من نوع MLM بدون عينات على السمات الترتيبية لـ AutoML | أحدث الأوراق البحثية | HyperAI