HyperAIHyperAI
منذ 2 أشهر

ال Annotations الأعمدة باستخدام النماذج اللغوية المدربة مسبقًا

Yoshihiko Suhara; Jinfeng Li; Yuliang Li; Dan Zhang; Çağatay Demiralp; Chen Chen; Wang-Chiew Tan
ال Annotations الأعمدة باستخدام النماذج اللغوية المدربة مسبقًا
الملخص

استنتاج المعلومات الفوقية حول الجداول، مثل عناوين الأعمدة أو العلاقات بين الأعمدة، هو موضوع بحث نشط في إدارة البيانات حيث نجد أن العديد من الجداول تفتقد بعض هذه المعلومات. في هذا البحث، ندرس مشكلة توثيق أعمدة الجدول (أي التنبؤ بأنواع الأعمدة والعلاقات بينها) باستخدام معلومات الجدول نفسه فقط. نطور إطارًا للتعلم متعدد المهام (يُدعى دودو) يعتمد على النماذج اللغوية المدربة مسبقًا، والذي يأخذ الجدول بأكمله كمدخل ويتوقع أنواع الأعمدة والعلاقات باستخدام نموذج واحد. تظهر النتائج التجريبية أن دودو حقق أداءً جديدًا رائدًا في معيارين لتنبؤ نوع العمود وتنبؤ علاقة العمود، مع تحسينات تصل إلى 4.0% و11.9% على التوالي. نؤكد أن دودو يمكنه بالفعل التفوق على الأداء الرائد السابق باستخدام عدد أقل بكثير من الرموز، فقط 8 رموز لكل عمود. نقوم بإصدار صندوق أدوات (https://github.com/megagonlabs/doduo) ونؤكد فعالية دودو في مشكلة علم البيانات الحقيقية من خلال دراسة حالة.