HyperAIHyperAI

Command Palette

Search for a command to run...

Dual-CNN: مشغل لغوي تكاملي لوصف الصور النصية para

Xiaojie Wang Fangxiang Feng Yihui Shi Haoyun Liang Ruifan Li

الملخص

الملخص: يهدف مُهمة توليد وصف فقرة للصورة إلى إنتاج فقرة متماسكة تصف صورة معطاة. ومع ذلك، نظرًا لحدود قدرتها على التقاط الاعتماد الطويل الأمد، فإن مشغلات الشبكة العصبية التكرارية أو الشبكة العصبية ذات الذاكرة الطويلة والقصيرة (LSTM) لا تستطيع غالبًا إنتاج وصف نصي مرضٍ يتكوّن من فقرة طويلة. علاوةً على ذلك، يُلاحظ بوضوح عدم كفاءة التدريب في المشغلات التسلسلية. مستلهمين من الميزة التي تتميّز بها الشبكات العصبية التلافيفية (CNN)، نقترح في هذا البحث مشغلًا ثنائيًا مبنيًا على الشبكات العصبية التلافيفية (Dual-CNN) يتمتع بقدرة على الذاكرة الطويلة والحساب المتوازي، مما يمكنه من إنتاج فقرة متماسكة من الناحية الدلالية لصورة معينة. تم تقييم نموذج Dual-CNN لدينا على مجموعة بيانات الصور-الفقرات من جامعة ستانفورد. وتبين النتائج التجريبية الواسعة أن نموذج Dual-CNN يحقق نتائج مماثلة لنموذج الحد الأقصى من حيث الأداء مقارنةً بالنماذج الحالية. علاوةً على ذلك، تم تحليل تنوع الفقرات المولّدة وتماسكها لتأكيد تفوق النهج المُقترح.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp