HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

ووتشوغ: إطار عمل قائم على التعلم التبايني خفيف الوزن لتوسيم الأعمدة

{Jin Wang Zhengjie Miao}

الملخص

توفر الجداول الويبية العلاقاتية موارد قيمة لعدد كبير من التطبيقات اللاحقة، مما يجعل فهم الجداول، وخاصة تسمية الأعمدة التي تحدد الأنواع المعجمية والعلاقات بينها، موضوعًا رئيسيًا في مجال إدارة البيانات. وعلى الرغم من الجهود الأخيرة المبذولة لتحسين مهام مختلفة في فهم الجداول باستخدام قوة النماذج اللغوية الكبيرة المُدرَّبة مسبقًا، إلا أن الطرق الحالية تعتمد بشكل كبير على أمثلة مُعلَّمة واسعة النطاق وعالية الجودة، وتعاني ما زالت من مشكلة ندرة البيانات بسبب التوزيع غير المتوازن بين الفئات المختلفة. في هذه الورقة، نقترح إطار عمل يُسمى Watchog، الذي يستخدم تقنيات التعلم التبايني (Contrastive Learning) لتعلم تمثيلات قوية للجداول من خلال الاستفادة من مجموعة كبيرة من الجداول غير المُعلَّمة، وبتكاليف تشغيلية ضئيلة جدًا. يمكّن هذا النهج التمثيلات المُتعلَّمة للجداول من تحسين عملية التخصيص الدقيق (Fine-tuning) باستخدام عدد أصغر بكثير من الأمثلة المُعلَّمة الإضافية مقارنةً بالدراسات السابقة في مهام تسمية الأعمدة اللاحقة. علاوةً على ذلك، قمنا بتطوير تقنيات تحسين إضافية للبيئات شبه المُعلَّمة. أظهرت النتائج التجريبية على مجموعات بيانات معيارية شهيرة تفوق التقنيات المقترحة في مهام تسمية الأعمدة في ظل ظروف مختلفة. وبشكل خاص، يُقلل إطار عمل Watchog بشكل فعّال من مشكلة عدم التوازن بين الفئات الناتجة عن توزيع العلامات الطويلة الذيل (Long-tailed Label Distribution). وفي البيئة شبه المُعلَّمة، تتفوّق Watchog على أفضل طريقة معروفة بنسبة تصل إلى 26% و41% في مقاييس F1 الدقيقة (Micro) والماكرو (Macro) على التوالي، في مهمة تحديد النوع المعجمي.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
column-type-annotation-on-viznet-sato-fullWatchog
Macro-F1: 85.63
column-type-annotation-on-wikitables-turl-ctaWatchog
Macro-F1: 78.72
columns-property-annotation-on-wikitablesWatchog
Macro-F1: 88.45

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ووتشوغ: إطار عمل قائم على التعلم التبايني خفيف الوزن لتوسيم الأعمدة | الأوراق البحثية | HyperAI