سودوودو: التعلم الذاتي المقابل للتكامل والتحضير متعدد الأغراض للبيانات

تُلعب التعلم الآلي (ML) دورًا متزايد الأهمية في مهام إدارة البيانات، خاصةً في تكامل البيانات وإعدادها (DI&P). ومع ذلك، يعتمد نجاح النهج القائمة على التعلم الآلي بشكل كبير على توفر مجموعات بيانات مُعلمة كبيرة الحجم وعالية الجودة لمهام مختلفة. علاوةً على ذلك، فإن التنوّع الكبير في مهام وسير عمل DI&P يتطلب غالبًا تخصيص حلول التعلم الآلي، مما يُسبب تكاليف كبيرة في هندسة النماذج والتجارب. وتحتاج هذه العوامل إلى تأخير اعتماد النهج القائمة على التعلم الآلي في مجالات ومهام جديدة.في هذه الورقة، نقترح "سُدوودو" (Sudowoodo)، إطارًا متعدد الأغراض لمهام تكامل وإعداد البيانات (DI&P) يعتمد على التعلم التمييزي للتمثيلات. يتميز "سُدوودو" بتعريف موحد مبني على التوافق، يغطي طيفًا واسعًا من مهام DI&P، بما في ذلك التوافق بين الكيانات (EM) في تكامل البيانات، وتصحيح الأخطاء في تنظيف البيانات، وتحديد الأنواع المعنى في اكتشاف البيانات، وغيرها. يمكّن التعلم التمييزي "سُدوودو" من تعلم تمثيلات بيانات واعية بالتشابه من مجموعة كبيرة من العناصر البيانات (مثل سجلات الكيانات، أو أعمدة الجداول) دون الحاجة إلى أي بيانات مُعلمة. يمكن لتمثيلات البيانات المُكتسبة لاحقًا أن تُستخدم مباشرةً أو تُسهم في عملية التخصيص الدقيق (fine-tuning) باستخدام عدد قليل جدًا من التسميات لدعم مهام DI&P المختلفة. أظهرت نتائج تجاربنا أن "سُدوودو" تحقق نتائج متقدمة على مستوى مختلف من الإشراف، وتتفوّق على الحلول السابقة المتخصصة في التصفية (blocking) أو التوافق (matching) لمهام التوافق بين الكيانات (EM). كما حقق "سُدوودو" نتائج واعدة في مهام تنظيف البيانات وتحديد الأنواع المعنى، مما يُظهر تنوّعه الواسع في تطبيقات DI&P.