HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

مُفكِّك الذاكرة الهرمية للاستنتاج البصري

{Yi Yang Zhou Zhao Yahong Han Aming Wu}

الملخص

تركز التصوير السردي على إنتاج وصفات معنوية لتلخيص المحتوى البصري للصور أو مقاطع الفيديو، مثل التسمية البصرية (Visual Captioning) والسرد البصري (Visual Storytelling). وتكمن التحديات الرئيسية في كيفية تصميم مُفكِّك (Decoder) يُنتج وصفات دقيقة تتماشى مع المحتوى البصري. تُستخدم في التطورات الحديثة غالبًا الشبكات العصبية التكرارية (RNN)، مثل شبكة التخزين الطويل والقصير (LSTM)، كمُفكِّك. ومع ذلك، فإن RNN عرضة لتآكل المعلومات طويلة المدى، مما يُضعف قدرتها على اكتشاف الاعتماديات طويلة المدى. وقد أظهرت أعمال حديثة أن الشبكة الذاكرة (MemNet) تمتلك ميزة تخزين المعلومات طويلة المدى. ومع ذلك، لم تُستغل هذه الشبكة بشكل جيد كمُفكِّك في التصوير السردي. ويرجع جزء من السبب إلى صعوبة التفكيك المتسلسل متعدد الوسائط باستخدام MemNet. في هذه الدراسة، نقترح مُفكِّكًا ذا ذاكرة مبتكرًا للتصوير السردي. وبشكل محدد، ولتحقيق تمثيل متعدد الوسائط أفضل، نُصمم أولًا طريقة جديدة للدمج متعدد الوسائط لدمج المعلومات البصرية واللفظية بشكل كامل. ثم، بناءً على نتيجة الدمج، نُنشئ أثناء التفكيك مُفكِّكًا مبنيًا على MemNet يتكون من طبقات ذاكرة متعددة. وبشكل خاص، في كل طبقة، نستخدم مجموعة ذاكرة لتخزين المعلومات السابقة للتفكيك، ونستخدم آلية انتباه لاختيار المعلومات ذات الصلة بالإخراج الحالي بشكل تكيفي. وفي الوقت نفسه، نستخدم أيضًا مجموعة ذاكرة لتخزين إخراج التفكيك لكل طبقة ذاكرة في اللحظة الزمنية الحالية، مع الاستمرار في استخدام آلية الانتباه لاختيار المعلومات ذات الصلة. وبهذا، يُخفف هذا المُفكِّك من تآكل المعلومات طويلة المدى. علاوةً على ذلك، يُستفيد الهيكل الهرمي من المعلومات الكامنة في كل طبقة، مما يُسهم في إنتاج وصفات دقيقة. وأظهرت النتائج التجريبية على مهامين في التصوير السردي، وهما تسمية مقاطع الفيديو والسرد البصري، أن المُفكِّك المقترح يمكنه تحقيق نتائج متفوقة، ويتفوق في الأداء على المُفكِّكات التقليدية القائمة على RNN.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
visual-storytelling-on-vistMemNet
BLEU-4: 14.1
METEOR: 35.5

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مُفكِّك الذاكرة الهرمية للاستنتاج البصري | الأوراق البحثية | HyperAI