ORCAS-I: استفسارات مُعلّقة بنية باستخدام الإشراف الضعيف

تصنيف نية المستخدم هو مهمة مهمة في استرجاع المعلومات. في هذه الدراسة، نقدّم تصنيفًا معدّلًا لنية المستخدم. نأخذ التمييز الشائع بين الاستعلامات التوجيهية والمعاملاتية والمعلوماتية كنقطة انطلاق، ونحدد ثلاث فئات فرعية مختلفة للاستعلامات المعلوماتية: الأدواتية، والحقائقية، والامتناع. يؤدي هذا التصنيف إلى تصنيف أكثر دقة للأسئلة، ويحقق مستوى عالٍ من الاتساق بين المُصنّفين، ويمكن أن يُعدّ أساسًا لعملية تصنيف تلقائية فعّالة. وتساعد الفئات المُقدّمة حديثًا في التمييز بين أنواع الأسئلة التي يمكن لنظام الاسترجاع اتخاذ إجراء بشأنها، مثل تفضيل أنواع مختلفة من النتائج في عملية الترتيب. استخدمنا نهجًا يعتمد على الإشراف الضعيف باستخدام أداة Snorkel لتصنيف مجموعة بيانات ORCAS وفقًا لتصنيف نية المستخدم الجديد، مستخدمين قواعد مثبتة وعبارات مفتاحية لبناء قواعد تتنبأ بفئة النية. ثم نعرض سلسلة من التجارب باستخدام مجموعة متنوعة من نماذج التعلم الآلي، باستخدام التصنيفات الناتجة من مرحلة الإشراف الضعيف كبيانات تدريب، ولكننا وجدنا أن النتائج التي تنتجها Snorkel لا تُتفوّق عليها هذه النماذج المتنافسة، ويمكن اعتبارها من أفضل الحلول الحالية (state-of-the-art). وتكمن الميزة الأساسية لنهج قائم على القواعد مثل Snorkel في كفاءته في التنفيذ داخل نظام حقيقي، حيث يتم تنفيذ تصنيف نية المستخدم لكل استعلام يُقدّم. ويُقدّم المورد المرافق لهذا البحث كمجموعة بيانات ORCAS-I: نسخة مصنّفة من مجموعة بيانات ORCAS القائمة على النقرات الخاصة باستعلامات الويب، والتي توفر 18 مليون ارتباطًا بـ 10 ملايين استعلام مختلف.