التعلم العميق للكشف في مطابقة الكيانات: استكشاف فضاء التصميم
توافق الكيانات (EM) يُحدد الحالات البيانات التي تشير إلى نفس الكيان في العالم الحقيقي. تُطبَّق معظم حلول توافق الكيانات عبر خطوتين: التصفية (blocking) ثم التوافق. وقد تم تطبيق التعلم العميق (DL) على عملية التوافق في العديد من الدراسات، لكن عددًا قليلاً جدًا من الدراسات استخدم التعلم العميق في مرحلة التصفية. كما أن هذه الدراسات المتعلقة بالتصفية محدودة إلى حدٍ ما، حيث تُركّز فقط على شكل بسيط من التعلم العميق، وبعضها يتطلب بيانات تدريب مُصنَّفة. في هذا البحث، نُقدّم إطار عمل يُسمى DeepBlocker، الذي يُعدّ تقدّمًا كبيرًا في تطبيق التعلم العميق على مرحلة التصفية في توافق الكيانات. أولاً، نُعرّف فضاءً واسعًا من الحلول القائمة على التعلم العميق للتصفية، يضم حلولًا بدرجات متفاوتة من التعقيد، ويُغطي معظم الدراسات السابقة. ثم نطوّر ثمانية حلول ممثلة ضمن هذا الفضاء، والتي لا تتطلب بيانات تدريب مُصنَّفة، وتنقل الاستفادة من التطورات الحديثة في التعلم العميق (مثل نمذجة التسلسلات، ونماذج المُحوِّل (Transformer)، والتدريب ذاتيًا). ونحدد تجريبيًا أيّة حلول تُظهر أفضل الأداء على أي نوع من البيانات (منظمة، نصية، أو مُلوثة). ونُظهر أن أفضل الحلول (من بين الثمانية المطورة) تتفوّق على أفضل حلول التعلم العميق الحالية، وكذلك على أفضل الحلول غير القائمة على التعلم العميق (بما في ذلك حل صناعي متقدّم حديثًا غير مبني على التعلم العميق) عند التعامل مع البيانات النصية والبيانات المُلوثة، بينما تُظهر أداءً مماثلًا عند التعامل مع البيانات المنظمة. وأخيرًا، نُبيّن أن دمج أفضل الحلول القائمة على التعلم العميق مع أفضل الحلول غير القائمة على التعلم العميق يمكن أن يؤدي إلى أداء أفضل، مما يُشير إلى مسار بحثي جديد وواعد.