BERT-hLSTMs: BERT وLSTMs الهرمية للسرد البصري

السرد البصري هو مهمة إبداعية وصعبة، تهدف إلى إنشاء وصف يشبه القصة تلقائيًا لسلسلة من الصور. تفتقر الوصفات التي تُولَد بواسطة النماذج السابقة للسرد البصري إلى الاتساق، لأنها تعتمد على أساليب توليد التسلسل على مستوى الكلمات ولا تأخذ بعين الاعتبار بشكل كافٍ الاعتماديات على مستوى الجمل. ولحل هذه المشكلة، نقترح إطارًا جديدًا هرميًا للسرد البصري، والذي يُدرّس بشكل منفصل معاني الجمل على مستوى الجمل والكلمات على مستوى الكلمات. نستخدم نموذج BERT القائم على المحولات للحصول على تمثيلات متجهة للجمل والكلمات. ثم نطبّق شبكة LSTM هرمية: حيث يستلم LSTM السفلي تمثيلات متجهة للجمل من BERT، بهدف تعلّم الاعتماديات بين الجمل المقابلة للصور، بينما يُسند إلى LSTM العلوي مسؤولية توليد تمثيلات متجهة للكلمات، مستفيدًا من إخراج LSTM السفلي كمدخل. تُظهر النتائج التجريبية أن نموذجنا يتفوّق على معظم النماذج الأساسية المماثلة من حيث مقاييس التقييم التلقائي مثل BLEU وCIDEr، كما تُظهر فعالية طريقة العمل من خلال التقييم البشري.