نموذج تسلسلي عميق لفهم القراءة المتعددة للوثائق

يتعين تحقيق توازن أساسي بين الفعالية والكفاءة عند تصميم نظام إجابة الأسئلة عبر الإنترنت. مصدر الفعالية هو الوظائف المعقدة مثل فهم القراءة الآلية الاستخراجي (MRC)، بينما يتم الحصول على الكفاءة من التحسينات في مكونات الاسترجاع الأولية مثل اختيار المستندات المرشحة وتصنيف الفقرات. نظرًا لتعقيد سيناريوهات فهم القراءة الآلية متعددة المستندات في العالم الحقيقي، فإن تحسين كلاهما معًا في نظام شامل صعب للغاية. لحل هذه المشكلة، قمنا بتطوير نموذج جديد للتعلم التصعيدي العميق، والذي يتطور تدريجيًا من تصنيف المستندات والفقرات المرشحة على مستوى المستند والفقرة إلى استخراج الإجابات بشكل أكثر دقة باستخدام فهم القراءة الآلية. تحديدًا، يتم أولاً تصفية المستندات والفقرات غير ذات الصلة باستخدام وظائف بسيطة لاعتبارات الكفاءة. ثم نقوم بتدريب ثلاثة وحدات بشكل مشترك على النصوص المتبقية لتحقيق تتبع أفضل للإجابة: استخراج المستند، واستخراج الفقرة، واستخراج الإجابة. أظهرت نتائج التجارب أن الطريقة المقترحة تتفوق على الأساليب السابقة الأكثر تقدمًا في مجموعتين كبيرتين من البيانات المعيارية متعددة المستندات، وهما TriviaQA وDuReader. بالإضافة إلى ذلك، يمكن لنظامنا عبر الإنترنت تقديم الخدمة بشكل مستقر للمواقف النموذجية التي تتلقى ملايين الطلبات اليومية في أقل من 50 ميلي ثانية.