CoType: استخراج الكيانات المصنفة والعلاقات مع قواعد المعرفة

استخراج الكيانات والعلاقات من النص مهم لفهم المجموعات الضخمة من النصوص. تقليديًا، اعتمدت أنظمة استخراج العلاقات بين الكيانات على مجموعات نصوص تم تسميتها يدويًا للتدريب وتبنت خط أنابيب تدريجي. تتطلب مثل هذه الأنظمة خبرة بشرية إضافية للانتقال إلى مجال جديد، وهي عرضة للأخطاء التي تنحدر عبر الخط الأنبوبي. في هذا البحث، ندرس الاستخراج المشترك للكيانات المصنفة والعلاقات باستخدام بيانات مسمى حصلت عليها بشكل تقريبى من قواعد المعرفة (أي التوجيه البعيد). نظرًا لأن خوارزميتنا لتسمية الأنواع عبر التوجيه البعيد لا تعتمد على السياق، فإن البيانات التدريبية الصاخبة تشكل تحديات فريدة للمهمة. نقترح إطار عمل مستقل عن المجال جديد يُدعى CoType، يقوم بتشغيل خوارزمية تقسيم النص المعتمدة على البيانات لاستخراج ذكريات الكيانات، ويقوم بتضمين ذكريات الكيانات والعلاقات والميزات النصية وتسميات الأنواع في فضائين ذاتي البعد المنخفض (لذكريات الكيانات والعلاقات على التوالي)، حيث ستكون الأشياء التي أنواعها قريبة لها أيضًا تمثيلات مشابهة في كل فضاء. ثم يستخدم CoType هذه التضمينات المستفادة لتقدير أنواع الذكريات في الاختبار (غير القابلة للربط). نحدد مشكلة أمثلة مشتركة لتعلم التضمين من مجموعات النصوص وقواعد المعرفة، مع اعتماد دالة خسارة جزئية جديدة للبيانات المسمى الصاخبة وتقديم دالة "ترجمة" للأجسام لالتقاط القيود المتبادلة بين الكيانات والعلاقات على بعضها البعض. أظهرت التجارب على ثلاثة مجموعات بيانات عامة فعالية CoType عبر مجالات مختلفة (مثل الأخبار والأحياء الدقيقة)، بمتوسط تحسن بنسبة 25٪ في درجة F1 مقارنة بالطريقة الأفضل التالية.请注意,对于某些专有名词和技术术语,如“CoType”、“distant supervision”、“partial-label loss function”,我保留了英文原词并在首次出现时进行了标注。在实际的科技或学术文献中,这些术语可能会有特定的阿拉伯语翻译,但为了确保准确性,这里直接使用了英文。如果需要进一步本地化这些术语,请提供相应的阿拉伯语翻译。