HIBERT: التدريب الأولي على مستوى الوثيقة لمتحولات ثنائية الاتجاه الهرمية لتقديم ملخصات للوثائق

عادةً ما تستخدم نماذج التلخيص العصبي المستخلصة مشفّرًا هرميًا لترميز الوثيقة، وتتم تدريبها باستخدام علامات على مستوى الجملة، والتي يتم إنشاؤها بطريقة تقريبية باستخدام طرق قاعدية. يعتبر تدريب المشفّر الهرمي بهذه العلامات \emph{غير الدقيقة} تحديًا. مستوحى من الأعمال الحديثة حول التدريب الأولي للمشفّرات الجملية القائمة على المتحولات \cite{devlin:2018:arxiv}، نقترح {\sc Hibert} (اختصارًا لـ {\bf HI}erarchical {\bf B}idirectional {\bf E}ncoder {\bf R}epresentations from {\bf T}ransformers) لترميز الوثائق وطريقة لتدريبه الأولي باستخدام بيانات غير مصنفة. نطبق المشفّر المدرب أوليًا {\sc Hibert} على نموذج التلخيص الخاص بنا، ويتفوق على نظيره المبادئ عشوائيًا بمقدار 1.25 ROUGE في مجموعة بيانات CNN/Dailymail وبمقدار 2.0 ROUGE في إصدار من مجموعة بيانات New York Times. كما حققنا أداءً رائدًا في هاتين المجموعتين من البيانات.