SubTab: استخلاص ميزات البيانات الجدولية لتعلم التمثيل التلقائي التدريب

أظهر التعلم الذاتي التلقائي فعالية كبيرة في تعلُّم تمثيلات مفيدة، ومع ذلك، فإن معظم هذه النجاحات تم تحقيقها في أنواع البيانات مثل الصور والصوت والنص. ويُعزى هذا النجاح بشكل رئيسي إلى الاستفادة من البنية المكانية أو الزمنية أو الدلالية في البيانات من خلال التحويلات (التكبير). لكن قد لا توجد مثل هذه البنية في مجموعات البيانات الجدولية الشائعة الاستخدام في مجالات مثل الرعاية الصحية، مما يجعل من الصعب تصميم طريقة فعّالة للتحويل، ويحد من التقدم المماثل في سياق البيانات الجدولية. في هذه الورقة، نقدّم إطارًا جديدًا يُسمى "استخلاص ميزات البيانات الجدولية" (SubTab)، الذي يحوّل مهمة التعلُّم من البيانات الجدولية إلى مشكلة تعلُّم تمثيل متعدد المقاييس من خلال تقسيم الميزات المدخلة إلى عدة مجموعات فرعية. ونُجادل بأن إعادة بناء البيانات من مجموعة فرعية من ميزاتها، بدلاً من نسخة مُتضررة منها ضمن إطار عمل الترميز التلقائي (Autoencoder)، يمكنه التقاط التمثيل الخفي الكامن في البيانات بشكل أفضل. في هذا الإطار، يمكن التعبير عن التمثيل المشترك كمتوسط للمتغيرات الخفية للمجموعات الفرعية عند الاختبار، وهو ما نسميه "الاستنتاج التعاوني". تُظهر تجاربنا أن نموذج SubTab يحقق أداءً متفوقًا على مستوى الحد الأقصى (SOTA) بنسبة 98.31% على مجموعة بيانات MNIST في السياق الجدولية، مُوازيًا النماذج القائمة على الشبكات العصبية التلافيفية (CNN) ذات الأداء الأعلى، ويتفوق على النماذج الأساسية الحالية على ثلاث مجموعات بيانات واقعية أخرى بفارق كبير.