DeepType: ربط الكيانات متعدد اللغات من خلال تطور نظام الأنواع العصبي

الثروة من البيانات المهيكلة (مثل Wikidata) والبيانات غير المهيكلة المتاحة اليوم تقدم فرصة رائعة للذكاء الاصطناعي في المستقبل. حتى الآن، دمج هذين النمطين المختلفين من البيانات هو عملية صعبة تتضمن العديد من القرارات حول كيفية تمثيل المعلومات بأفضل طريقة ممكنة لكي يتم التقاطها أو الاستفادة منها، بالإضافة إلى تصنيف كميات كبيرة من البيانات يدويًا. يتجاوز DeepType هذا التحدي من خلال دمج المعلومات الرمزية بشكل صريح في عملية الاستدلال لشبكة عصبية مع نظام أنواع. أولاً، نقوم ببناء نظام الأنواع، وثانيًا، نستخدمه لتحديد مخرجات الشبكة العصبية بحيث تحترم البنية الرمزية. نحقق هذا بإعادة صياغة مشكلة التصميم كمشكلة عددية مختلطة: إنشاء نظام أنواع ثم تدريب شبكة عصبية باستخدامه. في هذه الصياغة الجديدة، تحدد المتغيرات المنفصلة العلاقات بين الوالدين والأبناء من الأونتولوجيا التي تكون أنواعًا ضمن نظام الأنواع، بينما تتحكم المتغيرات المستمرة في تصنيف يتم تناسبه مع نظام الأنواع. لا يمكن حل المشكلة الأصلية بدقة، لذلك نقترح خوارزمية ذات خطوتين: 1) البحث الاسترشادي أو التحسين العشوائي على المتغيرات المنفصلة التي تعريف نظام الأنواع بناءً على معلومات من مصدر موثوق (Oracle) ومؤشر قابلية التعلم (Learnability heuristic)، 2) الانحدار التدرجي لتوفيق معلمات المصنف. نطبق DeepType على مشكلة ربط الكيانات في ثلاثة مجموعات بيانات قياسية (أي WikiDisamb30، CoNLL (YAGO)، TAC KBP 2010) ونجد أنه يتفوق على جميع الحلول الموجودة بمarge كبير، بما في ذلك الأساليب التي تعتمد على نظام أنواع صممته البشر أو التعبيرات الدلالية الحديثة المستندة إلى التعلم العميق للكيانات، بينما يسمح استخدام المعلومات الرمزية بشكل صريح له بدمج كيانات جديدة دون الحاجة إلى إعادة التدريب.