HyperAIHyperAI
منذ 17 أيام

الضبط الدقيق ذي الهدفين لـ BERT لتوافق الكيانات

{Christian Bizer, Ralph Peeters}
الضبط الدقيق ذي الهدفين لـ BERT لتوافق الكيانات
الملخص

أصبح عدد متزايد من مزودي البيانات يعتمد على أنظمة ترقيم مشتركة مثل GTIN أو ISBN أو DUNS أو أرقام ORCID لتحديد الكيانات في المجالات المحددة. هذا يعني أنه في سياق دمج البيانات، تكون معرفات مشتركة متاحة غالبًا لجزء من وصف الكيانات التي يتم دمجها، بينما تكون غير متوفرة لآخرين. والتحدي في هذه السياقات يتمثل في تعلُّم نموذج مطابقة لوصف الكيانات دون معرفات، باستخدام وصف الكيانات التي تحتوي على معرفات كبيانات تدريب. يمكن التعامل مع هذه المهمة من خلال تعلُّم فاصل ثنائي (Binary Classifier) يميّز بين أزواج من وصف الكيانات التي تشير إلى نفس الكيان في العالم الحقيقي، عن وصف كيانات مختلفة. ويمكن أيضًا نمذجة المهمة كمشكلة تصنيف متعدد الفئات من خلال تعلُّم فاصل يُحدد وصف الكيانات الفردية. نقدّم طريقة تدريب ثنائية الأهداف لنموذج BERT، تُسمّى JointBERT، التي تدمج بين المطابقة الثنائية والتصنيف متعدد الفئات، مع إجبار النموذج على التنبؤ بمعرف الكيان لكل وصف كيان في زوج تدريب، بالإضافة إلى قرار المطابقة أو عدم المطابقة. أظهرت تقييماتنا على خمسة مجموعات بيانات معيارية لمهام مطابقة الكيانات أن التدريب ثنائي الأهداف يمكن أن يزيد من أداء المطابقة للمنتجات المرئية بنسبة تتراوح بين 1% إلى 5% في مقياس F1 مقارنة بالطرق القائمة على نموذج Transformer ذات الهدف الواحد، شريطة توفر كمية كافية من البيانات التدريبية لكلا الهدفين. وللتوسع في فهم أعمق للإيجابيات والسلبيات للطريقة المقترحة، قارنا JointBERT مع عدة طرق أخرى قائمة على BERT، وكذلك مع نماذج أساسية (Baseline) في سياق تحديات محددة لمهام المطابقة. أظهر التقييم أن JointBERT، شريطة توفر كمية كافية من البيانات التدريبية لكلا الهدفين، يتفوّق على الطرق الأخرى في المهام المتعلقة بالمنتجات المرئية، بينما يُظهر أداءً أضعف في حالة المنتجات غير المرئية. وباستخدام مزيج من تفسيرات LIME وفئات كلمات محددة حسب المجال، قمنا بتحليل قرارات المطابقة الخاصة بالنماذج العميقة المختلفة، ونتوصل إلى أن النماذج القائمة على BERT تكون أفضل في التركيز على فئات الكلمات ذات الصلة مقارنة بالنماذج القائمة على RNN.