إلى التعرف الدقيق على النص في المشهد باستخدام شبكات الاستدلال الدلالي

تحتوي صور النص المُشاهد على مستويين من المحتوى: البنية البصرية (النسيج البصري) والمعلومات الدلالية. وعلى الرغم من التقدم الكبير الذي أحرزته الطرق السابقة لاستRecognition النصوص في المشهد خلال السنوات الأخيرة، فإن البحث حول استغلال المعلومات الدلالية لمساعدة التعرف على النص لم يلقِ اهتمامًا كافيًا، حيث تم استكشاف هياكل مشابهة لشبكات RNN فقط لتمثيل المعلومات الدلالية بشكل غير مباشر. ومع ذلك، لاحظنا أن الطرق القائمة على RNN تمتلك عيوبًا واضحة، مثل طريقة فك التشفير المعتمدة على الزمن، ونقل السياق الدلالي في اتجاه واحد تسلسلي، وهي ما يحد بشكل كبير من فائدة المعلومات الدلالية وفعالية الحساب. ولتخفيف هذه القيود، نقترح إطارًا جديدًا قابلاً للتدريب من النهاية إلى النهاية يُسمى شبكة الاستدلال الدلالي (SRN)، حيث تم إدخال وحدة استدلال دلالي عالمية (GSRM) لالتقاط السياق الدلالي العالمي من خلال نقل متعدد الاتجاهات بالتوازي. وقد أثبتت النتائج المتميزة على 7 معايير عامة، تشمل النصوص المنتظمة، والنصوص غير المنتظمة، والنصوص الطويلة غير اللاتينية، فعالية ومتانة الطريقة المقترحة. علاوة على ذلك، تمتلك SRN ميزة واضحة من حيث السرعة مقارنة بالطرق القائمة على RNN، مما يدل على قيمتها العملية في التطبيقات الحقيقية.