تعلم تمثيلات الكيانات عبر السياقات من النص

مهام نمذجة اللغة، التي يتم فيها التنبؤ بالكلمات أو أجزاء الكلمات على أساس سياق محلي، كانت فعالة للغاية في تعلم تمثيلات الكلمات وتمثيلات العبارات التي تعتمد على السياق. انطلاقًا من الملاحظة أن الجهود الرامية إلى ترميز المعرفة العالمية في قواعد بيانات قابلة للقراءة بواسطة الآلة أو موسوعات قابلة للقراءة من قبل البشر تميل إلى التركيز على الكيانات، نقوم بدراسة استخدام مهمة ملء الفراغ لتعلم تمثيلات مستقلة عن السياق للكيانات من السياقات النصية التي ذُكرت فيها هذه الكيانات. نوضح أن التدريب على نطاق واسع للنماذج العصبية يسمح لنا بتعلم تمثيلات عالية الجودة للكيانات، ونعرض نتائج ناجحة في أربعة مجالات: (1) مقاييس تصنيف الكيانات القائمة، بما في ذلك خفض الخطأ بنسبة 64٪ مقارنة بالعمل السابق على TypeNet (مرتي وآخرون، 2018)؛ (2) مهمة جديدة لإعادة بناء الفئات بمجرد تقديم عدد قليل من الأمثلة؛ (3) مقاييس ربط الكيانات القائمة، حيث نحقق أفضل النتائج الحالية على CoNLL-Aida دون استخدام ميزات خاصة بالربط ونحصل على درجة 89.8٪ على TAC-KBP 2010 دون استخدام أي جدول مرادفات أو قاعدة بيانات خارجية أو بيانات تدريبية خاصة بالمجال؛ (4) الإجابة على أسئلة المعلومات العامة، والتي تحدد الكيانات بشكل فريد. تمثيلات الكيانات العالمية لدينا تشفير فئات الأنواع الدقيقة مثل اللاعبين الاسكتلنديين لكرة القدم ويمكنها الإجابة على أسئلة المعلومات العامة مثل: من كان آخر سجين في سجن شبانداو في برلين؟