HyperAIHyperAI
منذ 12 أيام

Dual-CNN: مشغل لغوي تكاملي لوصف الصور النصية para

{Xiaojie Wang, Fangxiang Feng, Yihui Shi, Haoyun Liang, Ruifan Li}
الملخص

الملخص: يهدف مُهمة توليد وصف فقرة للصورة إلى إنتاج فقرة متماسكة تصف صورة معطاة. ومع ذلك، نظرًا لحدود قدرتها على التقاط الاعتماد الطويل الأمد، فإن مشغلات الشبكة العصبية التكرارية أو الشبكة العصبية ذات الذاكرة الطويلة والقصيرة (LSTM) لا تستطيع غالبًا إنتاج وصف نصي مرضٍ يتكوّن من فقرة طويلة. علاوةً على ذلك، يُلاحظ بوضوح عدم كفاءة التدريب في المشغلات التسلسلية. مستلهمين من الميزة التي تتميّز بها الشبكات العصبية التلافيفية (CNN)، نقترح في هذا البحث مشغلًا ثنائيًا مبنيًا على الشبكات العصبية التلافيفية (Dual-CNN) يتمتع بقدرة على الذاكرة الطويلة والحساب المتوازي، مما يمكنه من إنتاج فقرة متماسكة من الناحية الدلالية لصورة معينة. تم تقييم نموذج Dual-CNN لدينا على مجموعة بيانات الصور-الفقرات من جامعة ستانفورد. وتبين النتائج التجريبية الواسعة أن نموذج Dual-CNN يحقق نتائج مماثلة لنموذج الحد الأقصى من حيث الأداء مقارنةً بالنماذج الحالية. علاوةً على ذلك، تم تحليل تنوع الفقرات المولّدة وتماسكها لتأكيد تفوق النهج المُقترح.

Dual-CNN: مشغل لغوي تكاملي لوصف الصور النصية para | أحدث الأوراق البحثية | HyperAI