التكيف المجالي لتحديد الكيانات العميقة: استكشاف لفضاء التصميم
حل الكيانات (Entity Resolution (ER)) يُعدّ أحد المشكلات الأساسية في دمج البيانات. وتحقيق النتائج الأفضل في مجال ER يعتمد حاليًا على الطرق القائمة على التعلم العميق (DL)، والتي تُدرَّب باستخدام عدد كبير من أزواج الكيانات المُصنَّفة (متطابقة/غير متطابقة). وقد لا يُشكِّل هذا مشكلةً كبيرة عند استخدام مجموعات بيانات معيارية جاهزة. ولكن في العديد من التطبيقات الواقعية لحل الكيانات، تتغير الوضعية بشكل جذري، حيث تصبح عملية جمع مجموعات بيانات مُصنَّفة كبيرة جدًا أمرًا مُرهقًا وصعبًا. في هذا البحث، نسعى للإجابة على السؤال التالي: إذا كانت لدينا مجموعة بيانات مصدرية مُصنَّفة جيدًا لحل الكيانات، فهل يمكننا تدريب نموذج لحل الكيانات القائم على التعلم العميق لبيانات الهدف دون أي تسميات، أو مع عدد قليل جدًا منها؟ يُعرف هذا التحدي بتكيف المجال (Domain Adaptation (DA))، والذي حقق نجاحات كبيرة في مجالات رؤية الحاسوب والمعالجة اللغوية الطبيعية، لكنه لم يُدرَس بشكل منهجي في مجال حل الكيانات. هدفنا هو استكشاف فوائد وقيود مجموعة واسعة من أساليب تكيف المجال في سياق حل الكيانات بشكل منهجي. ولتحقيق هذا الهدف، نُقدِّم إطارًا يُسمَّى DADER (تكيف المجال لحل الكيانات العميق)، الذي يُمكِّن من تقدُّم ملحوظ في تطبيق تكيف المجال على حل الكيانات. ونُعرِّف فضاءً لحلول التصميم تشمل ثلاث وحدات رئيسية في DADER، وهي: مُستخرج الميزات (Feature Extractor)، ومُصنِّف المطابقة (Matcher)، ومُنظِّم الميزات (Feature Aligner). ونُجري حتى الآن الدراسة التجريبية الأكثر شمولاً لاستكشاف هذا الفضاء التصميمي، ونقارن بين خيارات مختلفة من أساليب تكيف المجال في سياق حل الكيانات. ونقدِّم إرشادات لاختيار الحلول التصميمية المناسبة بناءً على تجارب واسعة النطاق.