HyperAIHyperAI
منذ 9 أيام

ووتشوغ: إطار عمل قائم على التعلم التبايني خفيف الوزن لتوسيم الأعمدة

{Jin Wang, Zhengjie Miao}
الملخص

توفر الجداول الويبية العلاقاتية موارد قيمة لعدد كبير من التطبيقات اللاحقة، مما يجعل فهم الجداول، وخاصة تسمية الأعمدة التي تحدد الأنواع المعجمية والعلاقات بينها، موضوعًا رئيسيًا في مجال إدارة البيانات. وعلى الرغم من الجهود الأخيرة المبذولة لتحسين مهام مختلفة في فهم الجداول باستخدام قوة النماذج اللغوية الكبيرة المُدرَّبة مسبقًا، إلا أن الطرق الحالية تعتمد بشكل كبير على أمثلة مُعلَّمة واسعة النطاق وعالية الجودة، وتعاني ما زالت من مشكلة ندرة البيانات بسبب التوزيع غير المتوازن بين الفئات المختلفة. في هذه الورقة، نقترح إطار عمل يُسمى Watchog، الذي يستخدم تقنيات التعلم التبايني (Contrastive Learning) لتعلم تمثيلات قوية للجداول من خلال الاستفادة من مجموعة كبيرة من الجداول غير المُعلَّمة، وبتكاليف تشغيلية ضئيلة جدًا. يمكّن هذا النهج التمثيلات المُتعلَّمة للجداول من تحسين عملية التخصيص الدقيق (Fine-tuning) باستخدام عدد أصغر بكثير من الأمثلة المُعلَّمة الإضافية مقارنةً بالدراسات السابقة في مهام تسمية الأعمدة اللاحقة. علاوةً على ذلك، قمنا بتطوير تقنيات تحسين إضافية للبيئات شبه المُعلَّمة. أظهرت النتائج التجريبية على مجموعات بيانات معيارية شهيرة تفوق التقنيات المقترحة في مهام تسمية الأعمدة في ظل ظروف مختلفة. وبشكل خاص، يُقلل إطار عمل Watchog بشكل فعّال من مشكلة عدم التوازن بين الفئات الناتجة عن توزيع العلامات الطويلة الذيل (Long-tailed Label Distribution). وفي البيئة شبه المُعلَّمة، تتفوّق Watchog على أفضل طريقة معروفة بنسبة تصل إلى 26% و41% في مقاييس F1 الدقيقة (Micro) والماكرو (Macro) على التوالي، في مهمة تحديد النوع المعجمي.