نمذجة أنواع الكيانات الدقيقة باستخدام تضمينات الصندوق

تُمثل نماذج التصنيف العصبي للكيانات العناصر الدقيقة للأنواع عادةً كمتجهات في فضاء عالي الأبعاد، ولكن لا يُعد هذا النوع من الفضاءات مناسبًا جيدًا لتمثيل الترابطات المعقدة بين هذه الأنواع. ندرس قدرة تمثيلات الصندوق (box embeddings)، التي تمثل المفاهيم كمستطيلات فائقة أبعاد بـ d بعدًا، على التقاط الهيكل الهرمي للأنواع، حتى عندما لا تكون هذه العلاقات محددة صراحةً في المُصطلحات (ontology). يمثل نموذجنا كلًا من الأنواع والذكرات المرتبطة بالكيانات كمُستطيلات. ثم يتم إدخال كل ذكر وسياقه إلى نموذج يستند إلى BERT لتمثيل هذا الذكر في فضاء الصندوق الخاص بنا؛ وبشكل أساسي، يستفيد هذا النموذج من المؤشرات النحوية والدلالية المُتَوَقِّعة في النص السطحي لاستنتاج تمثيل نوعي محتمل للذكر. ويمكن بعد ذلك استخدام تضمين الصندوق (box containment) لاستخلاص الاحتمال اللاحق لظهور ذكر معين لفئة معينة، وكذلك العلاقات الاحتمالية الشرطية بين الأنواع نفسها. وعند مقارنة نهجنا بنموذج تصنيف يعتمد على المتجهات، نلاحظ أداءً من الدرجة الأولى على عدة معايير لاختبار التصنيف للكيانات. وبالإضافة إلى الأداء التنافسي في التصنيف، يُظهر النموذج القائم على الصندوق أداءً أفضل من حيث اتساق التنبؤ (مثل التنبؤ بفئة فرعية وفوقية معًا) ودرجة الثقة (أي التمحيص أو التقييم الدقيق للثقة)، مما يدل على أن النموذج القائم على الصندوق يُمكّن من التقاط الهياكل الهرمية الكامنة للأنواع بشكل أفضل من النموذج القائم على المتجهات.