LIQUID: إطار عمل لإنشاء مجموعة بيانات للإجابة على الأسئلة ذات القوائم

تميل نماذج الإجابة على الأسئلة (QA) إلى الاعتماد على مجموعات بيانات تدريب ضخمة، مما يستدعي تطوير إطار لتكوين البيانات لتقليل تكاليف التسمية اليدوية. وعلى الرغم من أن عدة دراسات حديثة سعت إلى إنشاء أسئلة اصطناعية ذات إجابات مكونة من فقرة واحدة، إلا أنه لم تُجرَ أي دراسة حتى الآن حول إنشاء أسئلة قائمة (list questions) التي تمتلك إجابات متعددة غير متتالية (غير متجاورة). ولسد هذه الفجوة، نقترح إطارًا تلقائيًا يُدعى LIQUID، مُصممًا لإنشاء مجموعات بيانات للأسئلة والإجابات من نوع القائمة من مجموعات نصية غير مُصنفة. نبدأ بتحويل مقطع من ويكيبيديا أو PubMed إلى ملخص، ثم نستخرج الكيانات المعرفة (named entities) من النص المُلخَّص كمرشحات للإجابات. وهذا يسمح لنا باختيار إجابات مرتبطة دلاليًا في السياق، وبالتالي تكون مناسبة لبناء أسئلة قائمة. ثم نُنشئ الأسئلة باستخدام أداة جاهزة لإنشاء الأسئلة، باستخدام الكيانات المستخرجة والنص الأصلي. وأخيرًا، نُطبّق عمليات تصفية تكرارية وتوسيع للإجابات لضمان دقة الإجابات وشمولها. وباستخدام بياناتنا الاصطناعية، تم تحسين أداء النماذج السابقة الأفضل في مهام الأسئلة القائمة بشكل كبير، بزيادة في درجات F1 المطابقة الدقيقة بمقدار 5.0 على MultiSpanQA، و1.9 على Quoref، و2.8 متوسطة على ثلاث نماذج من معيار BioASQ.