REALM: التدريب المسبق للنماذج اللغوية المدعومة بالاسترجاع

أظهرت تدريب النماذج اللغوية أن لديها قدرة مذهلة على احتواء معرفة عالمية واسعة، وهي معرفة بالغة الأهمية للمهام المتعلقة بمعالجة اللغة الطبيعية مثل الإجابة على الأسئلة. ومع ذلك، فإن هذه المعرفة تُخزن بشكل غير مباشر في معاملات الشبكة العصبية، مما يتطلب استخدام شبكات متزايدة الحجم لتغطية المزيد من الحقائق.لالتقاط المعرفة بطريقة أكثر تركيبية وقابلية للتفسير، نُضفي على تدريب النموذج اللغوي مُسترجعًا للبيانات المعرفية المُخزنة في حالة مُخفية (latent knowledge retriever)، والذي يمكّن النموذج من استرجاع وتحليل الوثائق من مجموعة بيانات كبيرة مثل ويكيبيديا، وذلك أثناء عملية التدريب الأولي، والضبط الدقيق (fine-tuning)، والتنفيذ (inference). لأول مرة، نُظهر كيفية تدريب هذا المسترجع للمعرفة بشكل غير مُراقب (unsupervised)، باستخدام نموذج توليد اللغة المُقنّع (masked language modeling) كمصدر للإشارات التعلُّمية، مع تمرير التغذية العكسية (backpropagation) عبر خطوة استرجاع تأخذ بعين الاعتبار ملايين الوثائق.نُظهر فعالية تدريب النموذج اللغوي المُعزّز باسترجاع المعرفة (Retrieval-Augmented Language Model pre-training – REALM) من خلال ضبطه على مهمة مُعقدة في مجال الإجابة على الأسئلة في نطاق مفتوح (Open-domain Question Answering – Open-QA). ونقارن نتائجنا مع أحدث النماذج التي تعتمد على تخزين المعرفة بشكل صريح أو غير صريح، على ثلاث معايير شهيرة في مهام Open-QA، ونجد أننا نتفوّق على جميع الأساليب السابقة بفارق كبير (من 4% إلى 16% في الدقة المطلقة)، مع توفير مزايا نوعية مثل القابلية للتفسير والتركيبية.