SOTAB: معيار تسمية الجداول Schema.org التابع لـ WDC

فهم الدلالة الخاصة بعناصر الجدول يُعد شرطًا مسبقًا لمهام متعددة تتعلق بدمج البيانات واستكشاف البيانات. وتشكل عملية تسمية الجداول (Table Annotation) المهمة المتمثلة في تسمية عناصر الجدول باستخدام مصطلحات من مفردات محددة. يقدّم هذا البحث معيار تقييم تسمية الجداول من خلال Schema.org (SOTAB) المُصمم لمقارنة أداء أنظمة تسمية الجداول. يغطي معيار SOTAB مهام تسمية نوع العمود (CTA) وتسمية خصائص الأعمدة (CPA). ويوفّر SOTAB نحو 50,000 جدول مُسمّى لكل من المهمتين، ويحتوي على بيانات من Schema.org مستمدة من مواقع إلكترونية مختلفة. وتغطي هذه الجداول 17 نوعًا مختلفًا من الكيانات، مثل فيلم، حدث، نشاط تجاري محلي، وصفة طبخ، إعلان عن وظيفة، أو منتج. وتم استخلاص هذه الجداول من مجموعة جداول Schema.org التابعة لـ WDC، التي تم إنشاؤها عبر استخراج تسميات Schema.org من بيانات Common Crawl. وبما أن التسميات المستخدمة لتسمية الأعمدة في SOTAB تنتمي إلى مفردات Schema.org، فإنها تُعد متوافقة تمامًا مع هذه المفردات. ويغطي المعيار 91 نوعًا لمهام CTA و176 خاصية لمهام CPA، وتوزّع هذه الأنواع والخصائص على الأعمدة النصية والرقمية والمتضمنة تواريخ وأوقات. كما تم تقسيم الجداول إلى مجموعات تدريب ثابتة، وتحقق، واختبار. وتُقسّم مجموعات الاختبار إضافيًا إلى مجموعات فرعية تركز على تحديات محددة، مثل الأعمدة التي تفتقر إلى قيم أو تختلف في تنسيق القيم، بهدف تمكين مقارنة أكثر دقة بين أنظمة التسمية. وتبين نتائج تقييم SOTAB باستخدام نموذجي Doduo وTURL أن هذا المعيار يُعد صعبًا جدًا على أنظمة الحالة الراهنة من الأداء المتميز.