HyperAIHyperAI

Command Palette

Search for a command to run...

إطار عمل يعتمد على المُشفِّر-المُفكِّك لإنشاء عناوين الصور الهندية

Sivaji Bandyopadhyay Thoudam Doren Singh Alok Singh

الملخص

في الآونة الأخيرة، لاقت الأنشطة البحثية المتعلقة بإنشاء عناوين للصور اهتمامًا من قبل عدد من الباحثين. يهدف هذا العمل إلى معالجة مشكلة إنشاء عناوين للصور باللغة الهندية باستخدام مجموعة بيانات "فيزيوال جينوم الهندي". إن اللغة الهندية هي اللغة الرسمية والأكثر استخدامًا في الهند. وفي دولة لغوية متنوعة مثل الهند، يُعد توفير وسيلة تساعد السكان على فهم الكيانات البصرية بلغتهم الأم أمرًا بالغ الأهمية. في هذه الورقة، تم اقتراح معمارية قائمة على مُشفّر (Encoder) ومحDecoder، حيث تُستخدم الشبكة العصبية التلافيفية (CNN) لتمثيل السمات البصرية للصورة، بينما تُستخدم الشبكة العصبية الطويلة القصيرة الذاكرة المتعددة الطبقات (sLSTM) بالتزامن مع كل من الشبكة العصبية الطويلة القصيرة الذاكرة ذات الاتجاه الواحد (uni-directional LSTM) والاتجاه المزدوج (bi-directional LSTM) لتكوين العناوين باللغة الهندية. لتمثيل السمات البصرية للصورة، تم استخدام نموذج مُدرّب مسبقًا مبني على VGG19، بينما تم توظيف بنية sLSTM في جانب المحDecoder لتكوين العناوين. تم اختبار النموذج على مجموعة بيانات "فيزيوال جينوم الهندي" لتأكيد أداء النهج المقترح، كما تم إجراء عملية تحقق متقاطع لعناوين باللغة الإنجليزية باستخدام مجموعة بيانات Flickr. تُظهر النتائج التجريبية للنهج المقترح أن النموذج يتفوق بشكل نوعي وكمي على الطرق الرائدة في مجال إنشاء عناوين الصور باللغة الهندية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp