AON: نحو التعرف على النصوص الموجهة بشكل تعسفي

التعرف على النصوص من الصور الطبيعية هو موضوع بحث ساخن في مجال رؤية الحاسوب نظرًا لتطبيقاته المتعددة. رغم البحث المستمر لمدة عقود حول التعرف على الحروف البصرية (OCR)، فإن التعرف على النصوص من الصور الطبيعية لا يزال مهمة صعبة. هذا بسبب أن النصوص في المشاهد غالبًا ما تكون مرتبة بشكل غير منتظم (مثل المنحنية، الموجهة بشكل تعسفي أو المشوهة بشدة)، وهي مشكلة لم يتم التعامل معها بشكل جيد في الأدبيات العلمية بعد. الطرق الحالية للتعرف على النصوص تعمل بشكل أساسي مع النصوص المنتظمة (الأفقية والواجهية) ولا يمكن تعميمها بسهولة للتعامل مع النصوص غير المنتظمة. في هذه الورقة البحثية، نطور شبكة التوجيه التعسفي (AON) لالتقاط الخصائص العميقة للنصوص غير المنتظمة مباشرة، والتي يتم دمجها في مفكك ترميز يستند إلى الانتباه لإنتاج سلسلة الحروف. يمكن تدريب الشبكة بأكملها بطريقة شاملة باستخدام الصور فقط والشروحات على مستوى الكلمات. أظهرت التجارب الواسعة على مجموعة متنوعة من المعايير، بما في ذلك مجموعات بيانات CUTE80 وSVT-Perspective وIIIT5k وSVT وICDAR، أن الطريقة المقترحة التي تستند إلى AON تحقق أفضل الأداء في مجموعات البيانات غير المنتظمة، وأنها مقاربة للأطر الرئيسية الموجودة في مجموعات البيانات المنتظمة.