HyperAIHyperAI
منذ 11 أيام

شبكة انتباه منفصلة للتعرف على النص

Tianwei Wang, Yuanzhi Zhu, Lianwen Jin, Canjie Luo, Xiaoxue Chen, Yaqiang Wu, Qianying Wang, Mingxiang Cai
شبكة انتباه منفصلة للتعرف على النص
الملخص

لقد جذبت اعترافات التعرف على النص اهتمامًا بحثيًا كبيرًا نظرًا لتطبيقاتها المتنوعة. تعتمد الطرق الحديثة في التعرف على النص على آليات الانتباه (attention mechanisms). ومع ذلك، غالبًا ما تعاني الطرق القائمة على الانتباه من مشكلة التوافيق الجسيمة الناتجة عن عملية التوافيق المتسلسلة (recurrency alignment operation)، حيث يعتمد التوافيق على نتائج التشفير السابقة. ولحل هذه المشكلة، نقترح شبكة انتباه منفصلة (DAN)، والتي تفصل عملية التوافيق عن الاعتماد على نتائج التشفير السابقة. تُعدّ DAN معترفًا نصيًا فعّالًا ومُرنًا ومقاومًا، وتشمل ثلاث مكونات رئيسية: 1) معالج ميزات يُستخرج من خلاله الميزات البصرية من الصورة المدخلة؛ 2) وحدة توافيق متعددة الأبعاد (convolutional alignment module) تقوم بعملية التوافيق بناءً على الميزات البصرية المستخرجة من المعالج؛ 3) ومُفكّك نصي منفصل (decoupled text decoder) يُجري التنبؤ النهائي من خلال استخدام معايير الخريطة الميزاتية والخرائط الانتباه معًا. أظهرت النتائج التجريبية أن DAN تحقق أداءً متميزًا على مستوى الحد الأقصى (state-of-the-art) في مهام متعددة للتعرف على النص، بما في ذلك التعرف على النص اليدوي غير المكتوب بشكل مباشر (offline handwritten text recognition)، والتعرف على النصوص في البيئات المنتظمة وغير المنتظمة (regular/irregular scene text recognition).

شبكة انتباه منفصلة للتعرف على النص | أحدث الأوراق البحثية | HyperAI