منذ 2 أشهر

Re2G: استرجاع، إعادة ترتيب، إنشاء

Michael Glass; Gaetano Rossiello; Md Faisal Mahbub Chowdhury; Ankita Rajaram Naik; Pengshan Cai; Alfio Gliozzo

الملخص

كما أظهره GPT-3 و T5، فإن القدرات المتزايدة للمحولات (transformers) ترتبط بزيادة مساحات المعلمات (parameter spaces). ومع ذلك، بالنسبة للمهام التي تتطلب كمية كبيرة من المعرفة، يسمح الذاكرة غير المعلمة (non-parametric memory) للنماذج بالنمو بشكل كبير مع زيادة أقل من الخطية في التكلفة الحاسوبية ومتطلبات ذاكرة GPU. قد قدمت النماذج الحديثة مثل RAG و REALM استرجاعًا (retrieval) إلى التوليد الشرطي (conditional generation). هذه النماذج تدمج الاسترجاع العصبي الأولي (neural initial retrieval) من مجموعة من المقاطع النصية. نحن نبني على هذا المسار من البحث، مقترحين Re2G، الذي يجمع بين الاسترجاع العصبي الأولي وإعادة الترتيب (reranking) في توليد متسلسل إلى متسلسل مستند إلى BART. يتيح نهج إعادة الترتيب لدينا أيضًا دمج نتائج الاسترجاع من مصادر ذات درجات غير قابلة للمقارنة، مما يمكن من استخدام مجموعة متنوعة من BM25 والاسترجاع العصبي الأولي. لتدريب نظامنا بشكل شامل، نقدم نوعًا جديدًا من تقليص المعرفة (knowledge distillation) لتدريب الاسترجاع الأولي وإعادة الترتيب والتوليد باستخدام الحقائق فقط على الإخراج النهائي للمتسلسل المستهدف. لقد حققنا مكاسب كبيرة في أربع مهام متنوعة: تعبئة الفتحات دون تدريب سابق (zero-shot slot filling)، وأسئلة الإجابة (question answering)، والتحقق من الحقائق (fact-checking)، والحوار (dialog)، بمكاسب نسبية تتراوح بين 9٪ و 34٪ عن أفضل ما سبقها في قائمة KILT الرائدة. نحن نوفر رمزنا كمصدر مفتوح على الرابط https://github.com/IBM/kgi-slot-filling/tree/re2g.