HyperAIHyperAI
منذ 16 أيام

TextScanner: قراءة الأحرف بالترتيب لتقدير نصي مشهد موثوق

Zhaoyi Wan, Minghang He, Haoran Chen, Xiang Bai, Cong Yao
TextScanner: قراءة الأحرف بالترتيب لتقدير نصي مشهد موثوق
الملخص

بفضل التعلم العميق وحجم البيانات الكبير، تطورت عملية تمييز النص في المشاهد بشكل سريع في السنوات الأخيرة. في السابق، كانت الأساليب القائمة على RNN-attention تهيمن على هذا المجال، لكنها تعاني من مشكلة ما يُعرف بـ \textit{انحراف الانتباه} في بعض الحالات. في الآونة الأخيرة، أثبتت الخوارزميات القائمة على التجزئة الدلالية فعاليتها في تمييز النصوص ذات الأشكال المختلفة (أفقي، مائل، منحني). ومع ذلك، قد تُنتج هذه الأساليب أحرفًا وهمية أو تفوت أحرفًا حقيقية، نظرًا لاعتمادها الشديد على عملية تثبيت حد (thresholding) على خرائط التجزئة. لمعالجة هذه التحديات، نقترح في هذه الورقة منهجًا بديلًا يُسمى TextScanner لتمييز النص في المشاهد. يتميز TextScanner بثلاث خصائص رئيسية: (1) من حيث الأساس، ينتمي إلى عائلة التجزئة الدلالية، حيث يُولِّد خرائط تجزئة على مستوى كل بكسل ذات قنوات متعددة تمثل فئة الحرف، وموقعه، وترتيبه؛ (2) في الوقت نفسه، يشبه الأساليب القائمة على RNN-attention من حيث استخدامه لـ RNN لنمذجة السياق؛ (3) علاوة على ذلك، يُنفِّذ تنبؤات متوازية لتحديد موقع الحرف ونوعه، ويضمن نقل الحروف بشكل صحيح وفق الترتيب الصحيح. أظهرت التجارب على مجموعات بيانات معيارية معيارية أن TextScanner يتفوق على أحدث الأساليب المطورة. كما تُظهر النتائج تفوق TextScanner في تمييز النصوص الأصعب مثل النصوص الصينية، وتحقيق مطابقة دقيقة مع الحروف المستهدفة.

TextScanner: قراءة الأحرف بالترتيب لتقدير نصي مشهد موثوق | أحدث الأوراق البحثية | HyperAI