الإجابة على الأسئلة الطبيعية المحبطة سهولة

تركز الأدبيات الحالية المتعلقة بالإجابة على الأسئلة (QA) بشكل أساسي على الابتكار الخوارزمي، أو تعزيز البيانات، أو النماذج اللغوية المُدرّبة مسبقًا الكبيرة بشكل متزايد مثل XLNet وRoBERTa. بالإضافة إلى ذلك، لا تتوفر وثائق بحثية مرافقة لعدد كبير من الأنظمة المُدرجة في لوحات التصنيف الخاصة بالإجابة على الأسئلة، مما يجعل إعادة إنتاج تجاربها أمرًا صعبًا. في هذا البحث، نوضح مكونات خوارزمية مثل Attention-over-Attention، مدعومة باستراتيجيات تعزيز البيانات ودمج النماذج (ensembling)، والتي أظهرت نتائج تفوق الحد الأقصى الممكن على مجموعات بيانات المعايرة مثل SQuAD، بل وحققت أداءً يفوق البشر في بعض المهام. ومع ذلك، وبخلاف هذه النتائج السابقة، فإن تقييمنا على مجموعة بيانات المعايرة الجديدة المُقترحة، وهي Natural Questions، يُظهر أن نهجًا بسيطًا للغاية يتمثل في التعلم الناقل من نموذج BERT يتفوق على النظام السابق الذي تم تدريبه على 4 ملايين مثال إضافية مقارنة بنا بفارق 1.9 نقطة في مقياس F1. كما أن إضافة استراتيجيات الدمج (ensembling) يُحسّن هذه النتيجة بمقدار 2.3 نقطة إضافية في مقياس F1.