HyperAIHyperAI
منذ 11 أيام

مُفكِّك الذاكرة الهرمية للاستنتاج البصري

{Yi Yang, Zhou Zhao, Yahong Han, Aming Wu}
الملخص

تركز التصوير السردي على إنتاج وصفات معنوية لتلخيص المحتوى البصري للصور أو مقاطع الفيديو، مثل التسمية البصرية (Visual Captioning) والسرد البصري (Visual Storytelling). وتكمن التحديات الرئيسية في كيفية تصميم مُفكِّك (Decoder) يُنتج وصفات دقيقة تتماشى مع المحتوى البصري. تُستخدم في التطورات الحديثة غالبًا الشبكات العصبية التكرارية (RNN)، مثل شبكة التخزين الطويل والقصير (LSTM)، كمُفكِّك. ومع ذلك، فإن RNN عرضة لتآكل المعلومات طويلة المدى، مما يُضعف قدرتها على اكتشاف الاعتماديات طويلة المدى. وقد أظهرت أعمال حديثة أن الشبكة الذاكرة (MemNet) تمتلك ميزة تخزين المعلومات طويلة المدى. ومع ذلك، لم تُستغل هذه الشبكة بشكل جيد كمُفكِّك في التصوير السردي. ويرجع جزء من السبب إلى صعوبة التفكيك المتسلسل متعدد الوسائط باستخدام MemNet. في هذه الدراسة، نقترح مُفكِّكًا ذا ذاكرة مبتكرًا للتصوير السردي. وبشكل محدد، ولتحقيق تمثيل متعدد الوسائط أفضل، نُصمم أولًا طريقة جديدة للدمج متعدد الوسائط لدمج المعلومات البصرية واللفظية بشكل كامل. ثم، بناءً على نتيجة الدمج، نُنشئ أثناء التفكيك مُفكِّكًا مبنيًا على MemNet يتكون من طبقات ذاكرة متعددة. وبشكل خاص، في كل طبقة، نستخدم مجموعة ذاكرة لتخزين المعلومات السابقة للتفكيك، ونستخدم آلية انتباه لاختيار المعلومات ذات الصلة بالإخراج الحالي بشكل تكيفي. وفي الوقت نفسه، نستخدم أيضًا مجموعة ذاكرة لتخزين إخراج التفكيك لكل طبقة ذاكرة في اللحظة الزمنية الحالية، مع الاستمرار في استخدام آلية الانتباه لاختيار المعلومات ذات الصلة. وبهذا، يُخفف هذا المُفكِّك من تآكل المعلومات طويلة المدى. علاوةً على ذلك، يُستفيد الهيكل الهرمي من المعلومات الكامنة في كل طبقة، مما يُسهم في إنتاج وصفات دقيقة. وأظهرت النتائج التجريبية على مهامين في التصوير السردي، وهما تسمية مقاطع الفيديو والسرد البصري، أن المُفكِّك المقترح يمكنه تحقيق نتائج متفوقة، ويتفوق في الأداء على المُفكِّكات التقليدية القائمة على RNN.

مُفكِّك الذاكرة الهرمية للاستنتاج البصري | أحدث الأوراق البحثية | HyperAI