التعلم العميق للتطابق الكيانات: استكشاف فضاء التصميم

توطين الكيانات (EM) يُعد عملية تحديد الحالات البياناتية التي تشير إلى نفس الكيان في العالم الحقيقي. في هذه الورقة، نستعرض تطبيق التعلم العميق (DL) على مسألة توطين الكيانات، بهدف فهم المزايا والقيود المرتبطة بالتعلم العميق. نراجع العديد من الحلول القائمة على التعلم العميق التي تم تطويرها لمهام التوافيق المرتبطة بمعالجة النصوص (مثل ربط الكيانات، والاستنتاج النصي، إلخ). ونصنف هذه الحلول ونحدد فضاءً للحلول القائمة على التعلم العميق لتوطين الكيانات، ممثلًا بـ أربع حلول تختلف في قدرتها التمثيلية: SIF، وRNN، وAttention، وHybrid. ثم نستكشف أنواع مشكلات توطين الكيانات التي يمكن أن يُسهم فيها التعلم العميق. ونأخذ بعين الاعتبار ثلاث أنواع من هذه المشكلات، وهي: المشكلات التي تتضمن بيانات منظمة، والمشكلات التي تتضمن بيانات نصية، والمشكلات التي تتضمن بيانات متسخة. ونُجري مقارنة تجريبية بين الحلول الأربعة المذكورة أعلاه ونظام Magellan، وهو نظام متطور حديثًا مبني على التعلم لتوطين الكيانات. تُظهر النتائج أن التعلم العميق لا يتفوق على الحلول الحالية في مسائل توطين الكيانات المنظمة، لكنه يمكن أن يتفوق بشكل كبير عليها في مسائل توطين الكيانات النصية والمشكلات المتسخة. ولهذا، فإن هذه النتائج تُشير إلى أن الممارسين ينبغي أن يأخذوا بعين الاعتبار بجدية استخدام التعلم العميق في معالجة مشكلات توطين الكيانات النصية والمشكلات المتسخة. وأخيرًا، نحلل أداء التعلم العميق ونناقش الاتجاهات المستقبلية للبحث.