HyperAIHyperAI
منذ 3 أشهر

AOG-LSTM: شبكة عصبية انتباه تكيفية للسرد البصري

{and Wei Wu, Rui Xie, Hui Wang, Yong Jiang, Hai-Tao Zheng, Wei Wang, Chia-Hao Chang, Jiacheng Yang, Hanqing Liu}
AOG-LSTM: شبكة عصبية انتباه تكيفية للسرد البصري
الملخص

القصة البصرية هي المهمة التي تتمثل في إنشاء قصة مترابطة لسلسلة صور معطاة، وقد لاقت اهتمامًا كبيرًا في الأبحاث الأخيرة. ومع ذلك، فإن استخدام الشبكات العصبية التكرارية العامة (مثل LSTM وGRU) كمُفكّك (decoder) يحد من أداء النماذج في هذه المهمة. وذلك لأنها لا تستطيع التمييز بين أنواع مختلفة من تمثيلات المعلومات. علاوةً على ذلك، فإن تحسين احتمالات الكلمات التالية مع مراعاة التسلسل الحقيقي السابق يؤدي إلى تراكم الأخطاء أثناء الاستدلال (inference). بالإضافة إلى ذلك، فإن الطريقة الحالية لتخفيف تراكم الأخطاء من خلال استبدال الكلمات المرجعية لا تأخذ بعين الاعتبار التأثير المختلف لكل كلمة. لحل هذه المشكلات، نقترح شبكة عصبية معدلة تُسمى AOG-LSTM واستراتيجية تدريب معدلة تُسمى ARS. تتيح AOG-LSTM للنموذج أن يُركّز بشكل تكيفي على التمثيلات المختلفة للمعلومات داخله عند توقع كلمات مختلفة. أثناء التدريب، تقوم ARS باستبدال بعض الكلمات في الجمل المرجعية بتنبؤات النموذج، مشابهة للطريقة الحالية. ولكننا نستخدم شبكة اختيار (selection network) واستراتيجية اختيار لاختيار كلمات أكثر ملاءمة للاستبدال، بهدف تحسين النموذج بشكل أفضل. أظهرت التجارب على مجموعة بيانات VIST أن نموذجنا يتفوق على عدة نماذج قوية في معظم المقاييس المستخدمة بشكل شائع.