AOG-LSTM: شبكة عصبية انتباه تكيفية للسرد البصري
القصة البصرية هي المهمة التي تتمثل في إنشاء قصة مترابطة لسلسلة صور معطاة، وقد لاقت اهتمامًا كبيرًا في الأبحاث الأخيرة. ومع ذلك، فإن استخدام الشبكات العصبية التكرارية العامة (مثل LSTM وGRU) كمُفكّك (decoder) يحد من أداء النماذج في هذه المهمة. وذلك لأنها لا تستطيع التمييز بين أنواع مختلفة من تمثيلات المعلومات. علاوةً على ذلك، فإن تحسين احتمالات الكلمات التالية مع مراعاة التسلسل الحقيقي السابق يؤدي إلى تراكم الأخطاء أثناء الاستدلال (inference). بالإضافة إلى ذلك، فإن الطريقة الحالية لتخفيف تراكم الأخطاء من خلال استبدال الكلمات المرجعية لا تأخذ بعين الاعتبار التأثير المختلف لكل كلمة. لحل هذه المشكلات، نقترح شبكة عصبية معدلة تُسمى AOG-LSTM واستراتيجية تدريب معدلة تُسمى ARS. تتيح AOG-LSTM للنموذج أن يُركّز بشكل تكيفي على التمثيلات المختلفة للمعلومات داخله عند توقع كلمات مختلفة. أثناء التدريب، تقوم ARS باستبدال بعض الكلمات في الجمل المرجعية بتنبؤات النموذج، مشابهة للطريقة الحالية. ولكننا نستخدم شبكة اختيار (selection network) واستراتيجية اختيار لاختيار كلمات أكثر ملاءمة للاستبدال، بهدف تحسين النموذج بشكل أفضل. أظهرت التجارب على مجموعة بيانات VIST أن نموذجنا يتفوق على عدة نماذج قوية في معظم المقاييس المستخدمة بشكل شائع.