تطابق الكيانات باستخدام نماذج اللغة الكبيرة

المطابقة بين الكيانات هي مهمة تحديد ما إذا كانت وصفين لكيانين يشاركان إلى نفس الكيان في العالم الحقيقي. تعتبر المطابقة بين الكيانات خطوة مركزية في معظم أنابيب دمج البيانات. تعتمد العديد من طرق المطابقة بين الكيانات الأكثر تقدماً على نماذج اللغة المدربة مسبقًا (PLMs) مثل BERT أو RoBERTa. هناك عيوب رئيسية اثنتان لهذه النماذج عند استخدامها للمطابقة بين الكيانات، وهما: (i) الحاجة إلى كميات كبيرة من بيانات التدريب الخاصة بالمهمة، و(ii) عدم ثبات النماذج التي تم ضبطها بشكل دقيق بالنسبة للبيانات خارج التوزيع.تستكشف هذه الورقة استخدام نماذج اللغة الجيلانية الكبيرة (LLMs) كبديل أقل اعتمادًا على بيانات التدريب الخاصة بالمهمة وأكثر ثباتًا مقارنة بنماذج المطابقة القائمة على PLMs. تغطي الدراسة نماذج LLMs المستضافة والمصدر المفتوح التي يمكن تشغيلها محليًا. نقيم هذه النماذج في سيناريو بدون تعلم سابق (zero-shot) وفي سيناريو حيث تكون بيانات التدريب الخاصة بالمهمة متاحة. نقارن تصاميم مختلفة للدعوات (prompts) وحساسية النماذج تجاه الدعوات. نوضح أنه لا يوجد دعوة واحدة أفضل من غيرها، بل يجب ضبط الدعوة لكل مزيج من النموذج والASET.نقوم أيضًا بالتحقيق في: (i) اختيار الأمثلة السياقية، و(ii) إنشاء قواعد المطابقة، بالإضافة إلى (iii) ضبط نماذج LLMs بشكل دقيق باستخدام نفس مجموعة بيانات التدريب. أظهرت تجاربنا أن أفضل نماذج LLMs تحتاج إلى عدم وجود أمثلة تدريب أو فقط بضع أمثلة لتحقيق أداء مشابه لنماذج PLMs التي تم ضبطها بشكل دقيق باستخدام آلاف الأمثلة. كما أظهرت نماذج LLMs المزيد من الثبات فيما يتعلق بالكيانات غير المعروفة.أظهرنا أن GPT4 يمكنه إنشاء شروحات منظمة لقرارات المطابقة ويمكنه تحديد الأسباب المحتملة للأخطاء في المطابقة تلقائيًا عن طريق تحليل شروحات القرارات الخاطئة. أثبتنا أن النموذج يمكنه إنشاء وصفات نصية ذات معنى للأصناف الخطأ التي تم تحديدها، مما يمكن مهندسي البيانات من تحسين أنابيب المطابقة بين الكيانات.