HyperAIHyperAI
منذ 11 أيام

TPS++: تحسين الانتباه في الشريحة الرقيقة للان reconocimiento النصي في المشهد

Tianlun Zheng, Zhineng Chen, Jinfeng Bai, Hongtao Xie, Yu-Gang Jiang
TPS++: تحسين الانتباه في الشريحة الرقيقة للان reconocimiento النصي في المشهد
الملخص

تُشكّل التشوهات النصية تحديًا كبيرًا أمام أنظمة تمييز النصوص في المشاهد. يُعتبر تصحيح النص باستخدام التحويلات القائمة على مُسَمَّى "اللوحة الرقيقة" (Thin-Plate Spline - TPS) وسيلة فعّالة على نطاق واسع للتعامل مع هذه التحديات. ومع ذلك، تعتمد حاليًا عملية حساب معاملات تحويل TPS بشكل كامل على جودة الحدود النصية التي يتم استخلاصها تلقائيًا، مما يؤدي إلى إهمال محتوى النص نفسه، وغالبًا ما ينتج عنه نتائج تصحيح غير مرضية للنصوص المتشوهة بشدة. في هذا العمل، نقدّم TPS++، وهي تحسين مُعزّز بالانتباه لتحويل TPS، ونُدخل ميكانيزم الانتباه إلى عملية تصحيح النص لأول مرة. يُعرّف TPS++ عملية حساب المعاملات كعملية مشتركة بين استخلاص نقاط التحكم في الخلفية (foreground control points) وتقدير درجات الانتباه القائمة على المحتوى، حيث يتم حساب هذه الدرجات باستخدام كتلة مُصممة خصيصًا تُسمى "كتلة الانتباه المُدار" (gated-attention block). وبهذا، يُنشئ TPS++ نظام تصحيح أكثر مرونة ووعيًا بالمحتوى، مما ينتج تصحيحًا نصيًا طبيعيًا يسهل على النظام التالي التعرف عليه. بالإضافة إلى ذلك، يشارك TPS++ جزءًا من البنية الأساسية للسمات (feature backbone) مع النظام المُعرّف، ويُنفّذ عملية التصحيح على مستوى السمات بدلاً من مستوى الصورة، مما يُضفي فقط تكلفة صغيرة من حيث عدد المعاملات ووقت الاستدلال. أظهرت التجارب على معايير عامة أن TPS++ يُحسّن باستمرار أداء التعرف على النص، ويحقق دقة متقدمة على مستوى الحد الأقصى في المجال (state-of-the-art). كما يُظهر أداءً جيدًا في التعميم على مختلف البنية الأساسية والأنظمة المُعرّفة. يمكن الاطلاع على الكود عبر الرابط: https://github.com/simplify23/TPS_PP.

TPS++: تحسين الانتباه في الشريحة الرقيقة للان reconocimiento النصي في المشهد | أحدث الأوراق البحثية | HyperAI