منذ 17 أيام

التوافق العُضوي العميق باستخدام نماذج اللغة المُدرَّبة مسبقًا

Yuliang Li, Jinfeng Li, Yoshihiko Suhara, AnHai Doan, Wang-Chiew Tan

الملخص

نقدم "ديتو" (Ditto)، نظامًا جديدًا للتوافق بين الكيانات (Entity Matching) يستند إلى نماذج لغوية قائمة على مُحَوِّلات مُدرَّبة مسبقًا (Transformer-based language models). نُعدِّل النموذج ونُصَفِّر مسألة التوافق بين الكيانات (EM) كمشكلة تصنيف زوج تسلسلي (sequence-pair classification) للاستفادة من هذه النماذج ببنية بسيطة. تُظهر تجاربنا أن تطبيقًا مباشرًا لنماذج لغوية مثل BERT أو DistilBERT أو RoBERTa، التي تم تدريبها مسبقًا على مجموعات نصية كبيرة، يُحسّن بشكل ملحوظ جودة التوافق، ويتفوق على النماذج السابقة الأفضل (SOTA) بنسبة تصل إلى 29% في مقياس F1 على مجموعات بيانات معيارية. كما طوّرنا ثلاث تقنيات تحسين لتعزيز قدرة "ديتو" على التوافق أكثر. يسمح "ديتو" بإدخال المعرفة الحقلية (domain knowledge) من خلال تمييز العناصر المهمة من المعلومات المدخلة التي قد تكون ذات صلة عند اتخاذ قرارات التوافق. كما يقوم "ديتو" بتلخيص السلاسل النصية الطويلة بحيث تُحتفظ فقط بالمعلومات الأساسية وتُستخدم في عملية التوافق. وأخيرًا، يُطبّق "ديتو" تقنية حديثة في تكبير البيانات (data augmentation) مخصصة للنصوص، لتوسيع بيانات التدريب بمثال صعب (challenging examples)، مما يُجبر النموذج على تعلّم مهام أكثر صعوبة، وبالتالي تحسين قدرته على التوافق. ونتيجة لهذه التقنيات المُحسَّنة، يُحسَّن أداء "ديتو" بنسبة تصل إلى 9.8%. ربما يكون أكثر مفاجأة، أننا أثبتنا أن "ديتو" يمكنه تحقيق نتائج النموذج السابق الأفضل باستخدام ما لا يزيد عن نصف كمية البيانات المُعلَّمة. وأخيرًا، نُظهِر فعالية "ديتو" في مهمة واقعية وواسعة النطاق لتوافق الكيانات. فعند مطابقة مجموعتين من بيانات الشركات تتضمنان 789 ألف و412 ألف سجل على التوالي، حقق "ديتو" مقياس F1 مرتفعًا بلغ 96.5%.