HyperAIHyperAI
منذ 2 أشهر

الشبكات العصبية الهرمية المركزة لمعالجة التسلسلات المشروطة

Nan Rosemary Ke; Konrad Zolna; Alessandro Sordoni; Zhouhan Lin; Adam Trischler; Yoshua Bengio; Joelle Pineau; Laurent Charlin; Chris Pal
الشبكات العصبية الهرمية المركزة لمعالجة التسلسلات المشروطة
الملخص

الشبكات العصبية المتكررة (RNNs) مع آليات الانتباه قد حققت نتائجًا رائدة في العديد من مهام معالجة التسلسلات. تستخدم معظم هذه النماذج شكلًا بسيطًا من المُشفِّر مع الانتباه يراجع التسلسل بأكمله ويحدد وزنًا لكل رمز بشكل مستقل. نقدم آلية لتركيز مُشفِّرات الشبكات العصبية المتكررة لمهمات نمذجة التسلسلات والتي تسمح لها بالتركيز على أجزاء رئيسية من الإدخال حسب الحاجة. نقوم بصياغة هذا باستخدام مُشفِّر تسلسلي مشروط متعدد الطبقات يقرأ رمزًا واحدًا في كل مرة ويتخذ قرارًا متقطعًا حول ما إذا كان الرمز ذا صلة بالسياق أو السؤال المطروح. يقوم الآلية المُقَيَّدَة المتقطعة بأخذ غرز السياق والحالة الخفية الحالية كمدخلات وتحكم في تدفق المعلومات إلى الطبقة الأعلى. نقوم بتدريبها باستخدام طرق التدرج السلوكية (policy gradient methods). نقيم هذه الطريقة على عدة أنواع من المهام ذات الصفات المختلفة. أولاً، نقيم الطريقة على مهام اصطناعية تتيح لنا تقييم قدرة النموذج على التعميم واستكشاف سلوك الأبواب في إعدادات أكثر تحكمًا. ثم نقيم هذا النهج على مهام الإجابة عن الأسئلة على نطاق واسع، بما في ذلك المهام الصعبة مثل MS MARCO وSearchQA. تظهر نماذجنا تحسينات ثابتة لكلا المهمتين مقارنة بالأعمال السابقة والأسس المرجعية الخاصة بنا. كما أثبتت أنها تتعمم بشكل أفضل بكثير في المهام الاصطناعية مقارنة بالأسس المرجعية.