HyperAIHyperAI
منذ 8 أيام

إطار عمل يعتمد على المُشفِّر-المُفكِّك لإنشاء عناوين الصور الهندية

{Sivaji Bandyopadhyay, Thoudam Doren Singh, Alok Singh}
الملخص

في الآونة الأخيرة، لاقت الأنشطة البحثية المتعلقة بإنشاء عناوين للصور اهتمامًا من قبل عدد من الباحثين. يهدف هذا العمل إلى معالجة مشكلة إنشاء عناوين للصور باللغة الهندية باستخدام مجموعة بيانات "فيزيوال جينوم الهندي". إن اللغة الهندية هي اللغة الرسمية والأكثر استخدامًا في الهند. وفي دولة لغوية متنوعة مثل الهند، يُعد توفير وسيلة تساعد السكان على فهم الكيانات البصرية بلغتهم الأم أمرًا بالغ الأهمية. في هذه الورقة، تم اقتراح معمارية قائمة على مُشفّر (Encoder) ومحDecoder، حيث تُستخدم الشبكة العصبية التلافيفية (CNN) لتمثيل السمات البصرية للصورة، بينما تُستخدم الشبكة العصبية الطويلة القصيرة الذاكرة المتعددة الطبقات (sLSTM) بالتزامن مع كل من الشبكة العصبية الطويلة القصيرة الذاكرة ذات الاتجاه الواحد (uni-directional LSTM) والاتجاه المزدوج (bi-directional LSTM) لتكوين العناوين باللغة الهندية. لتمثيل السمات البصرية للصورة، تم استخدام نموذج مُدرّب مسبقًا مبني على VGG19، بينما تم توظيف بنية sLSTM في جانب المحDecoder لتكوين العناوين. تم اختبار النموذج على مجموعة بيانات "فيزيوال جينوم الهندي" لتأكيد أداء النهج المقترح، كما تم إجراء عملية تحقق متقاطع لعناوين باللغة الإنجليزية باستخدام مجموعة بيانات Flickr. تُظهر النتائج التجريبية للنهج المقترح أن النموذج يتفوق بشكل نوعي وكمي على الطرق الرائدة في مجال إنشاء عناوين الصور باللغة الهندية.

إطار عمل يعتمد على المُشفِّر-المُفكِّك لإنشاء عناوين الصور الهندية | أحدث الأوراق البحثية | HyperAI