HyperAIHyperAI

Command Palette

Search for a command to run...

التوافق العُضوي العميق باستخدام نماذج اللغة المُدرَّبة مسبقًا

Yuliang Li Jinfeng Li Yoshihiko Suhara AnHai Doan Wang-Chiew Tan

الملخص

نقدم "ديتو" (Ditto)، نظامًا جديدًا للتوافق بين الكيانات (Entity Matching) يستند إلى نماذج لغوية قائمة على مُحَوِّلات مُدرَّبة مسبقًا (Transformer-based language models). نُعدِّل النموذج ونُصَفِّر مسألة التوافق بين الكيانات (EM) كمشكلة تصنيف زوج تسلسلي (sequence-pair classification) للاستفادة من هذه النماذج ببنية بسيطة. تُظهر تجاربنا أن تطبيقًا مباشرًا لنماذج لغوية مثل BERT أو DistilBERT أو RoBERTa، التي تم تدريبها مسبقًا على مجموعات نصية كبيرة، يُحسّن بشكل ملحوظ جودة التوافق، ويتفوق على النماذج السابقة الأفضل (SOTA) بنسبة تصل إلى 29% في مقياس F1 على مجموعات بيانات معيارية. كما طوّرنا ثلاث تقنيات تحسين لتعزيز قدرة "ديتو" على التوافق أكثر. يسمح "ديتو" بإدخال المعرفة الحقلية (domain knowledge) من خلال تمييز العناصر المهمة من المعلومات المدخلة التي قد تكون ذات صلة عند اتخاذ قرارات التوافق. كما يقوم "ديتو" بتلخيص السلاسل النصية الطويلة بحيث تُحتفظ فقط بالمعلومات الأساسية وتُستخدم في عملية التوافق. وأخيرًا، يُطبّق "ديتو" تقنية حديثة في تكبير البيانات (data augmentation) مخصصة للنصوص، لتوسيع بيانات التدريب بمثال صعب (challenging examples)، مما يُجبر النموذج على تعلّم مهام أكثر صعوبة، وبالتالي تحسين قدرته على التوافق. ونتيجة لهذه التقنيات المُحسَّنة، يُحسَّن أداء "ديتو" بنسبة تصل إلى 9.8%. ربما يكون أكثر مفاجأة، أننا أثبتنا أن "ديتو" يمكنه تحقيق نتائج النموذج السابق الأفضل باستخدام ما لا يزيد عن نصف كمية البيانات المُعلَّمة. وأخيرًا، نُظهِر فعالية "ديتو" في مهمة واقعية وواسعة النطاق لتوافق الكيانات. فعند مطابقة مجموعتين من بيانات الشركات تتضمنان 789 ألف و412 ألف سجل على التوالي، حقق "ديتو" مقياس F1 مرتفعًا بلغ 96.5%.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التوافق العُضوي العميق باستخدام نماذج اللغة المُدرَّبة مسبقًا | مستندات | HyperAI