HyperAIHyperAI

Command Palette

Search for a command to run...

AOG-LSTM: شبكة عصبية انتباه تكيفية للسرد البصري

and Wei Wu Rui Xie Hui Wang Yong Jiang Hai-Tao Zheng Wei Wang Chia-Hao Chang Jiacheng Yang Hanqing Liu

الملخص

القصة البصرية هي المهمة التي تتمثل في إنشاء قصة مترابطة لسلسلة صور معطاة، وقد لاقت اهتمامًا كبيرًا في الأبحاث الأخيرة. ومع ذلك، فإن استخدام الشبكات العصبية التكرارية العامة (مثل LSTM وGRU) كمُفكّك (decoder) يحد من أداء النماذج في هذه المهمة. وذلك لأنها لا تستطيع التمييز بين أنواع مختلفة من تمثيلات المعلومات. علاوةً على ذلك، فإن تحسين احتمالات الكلمات التالية مع مراعاة التسلسل الحقيقي السابق يؤدي إلى تراكم الأخطاء أثناء الاستدلال (inference). بالإضافة إلى ذلك، فإن الطريقة الحالية لتخفيف تراكم الأخطاء من خلال استبدال الكلمات المرجعية لا تأخذ بعين الاعتبار التأثير المختلف لكل كلمة. لحل هذه المشكلات، نقترح شبكة عصبية معدلة تُسمى AOG-LSTM واستراتيجية تدريب معدلة تُسمى ARS. تتيح AOG-LSTM للنموذج أن يُركّز بشكل تكيفي على التمثيلات المختلفة للمعلومات داخله عند توقع كلمات مختلفة. أثناء التدريب، تقوم ARS باستبدال بعض الكلمات في الجمل المرجعية بتنبؤات النموذج، مشابهة للطريقة الحالية. ولكننا نستخدم شبكة اختيار (selection network) واستراتيجية اختيار لاختيار كلمات أكثر ملاءمة للاستبدال، بهدف تحسين النموذج بشكل أفضل. أظهرت التجارب على مجموعة بيانات VIST أن نموذجنا يتفوق على عدة نماذج قوية في معظم المقاييس المستخدمة بشكل شائع.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
AOG-LSTM: شبكة عصبية انتباه تكيفية للسرد البصري | مستندات | HyperAI