HyperAIHyperAI
منذ 17 أيام

الاسترجاع المُعزّز للإنشاء في المهام ذات الكثافة المعرفية في معالجة اللغة الطبيعية

Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela
الاسترجاع المُعزّز للإنشاء في المهام ذات الكثافة المعرفية في معالجة اللغة الطبيعية
الملخص

أظهرت النماذج اللغوية الكبيرة المُدرَّبة مسبقًا أنها تخزن المعرفة الواقعية في معاملاتها، وتحقيق نتائج رائدة عند تدريبها الدقيق (fine-tuning) على مهام معالجة اللغة الطبيعية (NLP) المحددة. ومع ذلك، ما زالت قدرتها على الوصول إلى المعرفة وتعديلها بدقة محدودة، وبالتالي فإن أداؤها في المهام التي تعتمد بشدة على المعرفة يتأخر عن الأنظمة المخصصة لهذه المهام. بالإضافة إلى ذلك، لا يزال توفير مصدر المعرفة (provenance) لقراراتها وتحديث معرفتها بالعالم مشكلة بحثية مفتوحة. يمكن للنماذج المُدرَّبة مسبقًا التي تمتلك آلية وصول قابلة للتفاضل إلى ذاكرة غير بارامترية صريحة التغلب على هذه المشكلة، لكنها حتى الآن لم تُدرس سوى لمهام استخراجية محددة. نستعرض وصفًا عامًا لطريقة التدريب الدقيق (fine-tuning recipe) للنماذج المدعومة بالاسترجاع (RAG) — وهي نماذج تجمع بين الذاكرة البارامترية المُدرَّبة مسبقًا والذاكرة غير البارامترية لغرض توليد اللغة. نقدّم نماذج RAG حيث تكون الذاكرة البارامترية نموذجًا تسلسليًا ثنائي الاتجاه (seq2seq) مُدرَّبًا مسبقًا، بينما تكون الذاكرة غير البارامترية فهرسًا متجهيًا كثيفًا لويكيبيديا، يُسترجع باستخدام مُسترجع عصبي مُدرَّب مسبقًا. نقارن بين صيغتين لنموذج RAG: إحداهما تُشغّل نفس المقالات المسترجعة عبر التسلسل الكامل للنص المنتج، والأخرى يمكنها استخدام مقالات مختلفة لكل رمز (token). نُدرّب ونقيّم نماذجنا على مجموعة واسعة من المهام التي تعتمد على المعرفة في مجال معالجة اللغة الطبيعية، ونُحقّق أفضل الأداء على ثلاث مهام مفتوحة المجال للإجابة على الأسئلة (open-domain QA)، متفوّقةً على نماذج seq2seq البارامترية والأنظمة المخصصة التي تعتمد على الاسترجاع ثم الاستخراج. بالنسبة لمهمات توليد اللغة، نجد أن نماذج RAG تُنتج لغة أكثر تحديدًا، وتنوعًا، وواقعية مقارنةً بنموذج تسلسلي ثنائي الاتجاه (seq2seq) البارامترية المتطورة حديثًا.