UNIQORN: إجابة موحدة على الأسئلة عبر رسم المعرفة ذات الصيغة RDF والنصوص الطبيعية

أُجري تقدّم كبير في مجال الإجابة على الأسئلة المتعلقة ببيانات RDF مثل مخططات المعرفة، حيث قدمت عدد من الأنظمة المتميزة إجابات واضحة على أسئلة باللغة الطبيعية أو استفسارات موجزة. وتشمل بعض هذه الأنظمة مصادر نصية كدليل إضافي لعملية الإجابة، لكنها لا تستطيع حساب إجابات توجد فقط في النصوص. من ناحية أخرى، تناولت مجالي البحث المعلوماتي (IR) واللغة الطبيعية (NLP) الإجابة على الأسئلة النصية، لكن هذه الأنظمة لا تُستخدم إلى حدٍ بعيد البيانات والمعارف الشكلية. يقدّم هذا البحث منهجية لأسئلة معقدة يمكنها العمل بسلاسة على مزيج من مجموعات بيانات RDF ومستودعات نصية، أو على مصادر فردية، ضمن إطار موحد. ويُسمّى هذا المنهج UNIQORN، الذي يبني رسمًا بيانيًا للسياق بشكل ديناميكي، من خلال استرجاع الأدلة ذات الصلة بالسؤال من بيانات RDF و/أو من مستودع نصي، باستخدام نماذج BERT المُعدّلة بدقة. وعادةً ما يحتوي الرسم البياني الناتج على جميع الأدلة ذات الصلة بالسؤال، لكنه يحتوي أيضًا على الكثير من الضوضاء. ويتعامل UNIQORN مع هذا المدخل من خلال خوارزمية رسمية للأشجار المجموعة ستاينر (Group Steiner Trees)، التي تُحدّد أفضل المرشحين للإجابة داخل الرسم البياني للسياق. وتُظهر النتائج التجريبية على عدة معايير لأسئلة معقدة تتضمّن كيانات وعلاقات متعددة أن UNIQORN يتفوّق بشكل ملحوظ على أفضل الطرق الحالية في مجال الإجابة على الأسئلة المتنوعة — سواء في وضع التدريب الكامل أو في السياقات الصفرية (zero-shot). وتوفّر المنهجية القائمة على الرسوم البيانية أدلة قابلة للفهم من قبل المستخدم لعملية الإجابة الكاملة.