HyperAIHyperAI
منذ 2 أشهر

ساتو: اكتشاف النوع الدلالي السياقي في الجداول

Dan Zhang; Yoshihiko Suhara; Jinfeng Li; Madelon Hulsebos; Çağatay Demiralp; Wang-Chiew Tan
ساتو: اكتشاف النوع الدلالي السياقي في الجداول
الملخص

اكتشاف أنواع المعاني للعمودات في الجداول العلائقية مهم لمهام مختلفة لإعداد البيانات واسترجاع المعلومات مثل تنظيف البيانات، مطابقة المخططات، اكتشاف البيانات والبحث الدلالي. ومع ذلك، فإن النهج الحالية لا تؤدي بشكل جيد مع البيانات غير النظيفة، أو تدعم عددًا محدودًا فقط من أنواع المعاني، أو تفشل في دمج سياق الجدول للعمودات أو تعتمد على أحجام عينات كبيرة للبيانات التدريبية. نقدم "ساتو" (Sato)، وهو نموذج تعلم آلي هجين للكشف تلقائيًا عن أنواع المعاني للعمودات في الجداول، مستفيدًا من الإشارات الموجودة في السياق وكذلك قيم العمود. يجمع "ساتو" بين نموذج تعلم عميق تم تدريبه على مجموع كبير من الجداول ونمذجة الموضوع والتوقع الهيكلي لتحقيق درجات F1 مرتبطة بالدعم ومتوسطة الكتلة بمعدل 0.925 و0.735 على التوالي، مما يتجاوز الأداء الرائد بهامش كبير. نقوم بتحليل شامل لأداء "ساتو" الإجمالي وأداء كل نوع على حدة، مناقشين كيف تسهم المكونات النموذجية الفردية والفئات الخاصة بالسمات في أداءه.