منذ 8 أشهر

الملخص

التعرف على النصوص غير المنتظمة في صور المشاهد الطبيعية يمثل تحديًا بسبب التباين الكبير في مظهر النص، مثل الانحناء والتوجيه والتشوه. تعتمد معظم الطرق الحالية بشكل كبير على تصاميم نماذج معقدة و/أو توضيحات دقيقة إضافية، مما يزيد إلى حد ما من صعوبة تنفيذ الخوارزميات وجمع البيانات. في هذا العمل، نقترح طريقة أساسية قوية وسهلة التنفيذ للتعرف على النصوص غير المنتظمة في المشاهد الطبيعية، باستخدام مكونات شبكة عصبية جاهزة وأيضًا توضيحات على مستوى الكلمات فقط. تتكون هذه الطريقة من شبكة ResNet ذات 31 طبقة، وإطار عمل مرممِّز-مفكِّك (Encoder-Decoder) مستند إلى LSTM، ووحدة انتباه ثنائية الأبعاد (2D Attention Module). رغم بساطتها، فإن الطريقة المقترحة قوية وتحقق أداءً رائدًا في كلا المعيارين: التعرف على النصوص المنتظمة وغير المنتظمة في المشاهد الطبيعية.الشفرة متاحة على الرابط: https://tinyurl.com/ShowAttendRead

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار