DCoM: خريطة عمود عميقة للكشف عن أنواع البيانات الدلالية

كشف أنواع البيانات الدلالية يُعد مهمة بالغة الأهمية في علوم البيانات، خاصة في مجالات تنظيف البيانات تلقائيًا، وتوافق الهياكل (Schema Matching)، واكتشاف البيانات، وتوحيد أنواع البيانات الدلالية، وتحديد البيانات الحساسة. تشمل الطرق الحالية التي تُستخدم حاليًا الاعتماد على التعبيرات المنتظمة أو عمليات البحث في القواميس، وهي غير موثوقة تجاه البيانات غير النظيفة أو غير المعروفة، كما أنّها محدودة في عدد أنواع البيانات الدلالية التي يمكن التنبؤ بها. أما الطرق القائمة على التعلم الآلي، فهي تستخرج عددًا كبيرًا من الميزات المُهندسة من البيانات، ثم تبني نماذج مثل الانحدار اللوجستي أو الغابة العشوائية أو الشبكات العصبية ذات الطبقات الأمامية لهذا الغرض. في هذه الورقة، نقدّم DCoM، وهي مجموعة من الشبكات العصبية العميقة القائمة على معالجة اللغة الطبيعية (NLP) ذات المدخلات المتعددة، للكشف عن أنواع البيانات الدلالية، حيث بدلًا من استخراج عدد كبير من الميزات من البيانات، نُقدّم القيم الخام للأعمدة (أو المُثَلّات) إلى النموذج كنصوص. تم تدريب DCoM على 686,765 عمودًا من البيانات المستخلصة من مجموعة بيانات VizNet، والتي تضم 78 نوعًا مختلفًا من أنواع البيانات الدلالية. وقد أظهر DCoM أداءً أفضل بشكل ملحوظ مقارنةً بالنتائج الحديثة الأخرى على نفس المجموعة البيانات.