HyperAIHyperAI
منذ 8 أيام

DeepSolo++: دع مُفكِّك Transformer مع النقاط الصريحة تُنفِّذ وحيدًا للكشف عن النص متعدد اللغات

Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Tongliang Liu, Bo Du, Dacheng Tao
DeepSolo++: دع مُفكِّك Transformer مع النقاط الصريحة تُنفِّذ وحيدًا للكشف عن النص متعدد اللغات
الملخص

يهدف التوقيع النصي من الطرف إلى الطرف إلى دمج كلاً من كشف النص في المشهد وتمييزه في إطار موحد. ويُعد التعامل مع العلاقة بين المهمتين الفرعيتين عنصراً محورياً في تصميم نظم التوقيع النصي الفعالة. وعلى الرغم من أن الطرق القائمة على المُحَوِّل (Transformer) تُزيل المعالجة اللاحقة اليدوية (heuristic post-processing)، إلا أنها ما زالت تعاني من مشكلة التآزر بين المهمتين الفرعيتين، بالإضافة إلى كفاءة تدريب منخفضة. علاوة على ذلك، تتجاهل هذه الطرق الاستكشاف في مجال التوقيع النصي متعدد اللغات، والذي يتطلب مهمة إضافية لتحديد الخط (script identification). في هذه الورقة، نقدم DeepSolo++، وهي قاعدة بسيطة على غرار DETR، تُسمح لمشفر واحد (decoder) باستخدام نقاط صريحة بالقيام بمهمات كشف النص، وتمييزه، وتحديد الخط في آن واحد. من الناحية التقنية، نمثل تسلسل الرموز لكل مثال نصي كنقاط مرتبة، ونُنَمذجها باستخدام استعلامات نقاط صريحة قابلة للتعلم. وبعد المرور عبر مشفر واحد، تُشغَّل الاستعلامات النقطية ببيانات الدلالة النصية والمكانية الضرورية، وبالتالي يمكن تفكيكها لاحقاً إلى خط الوسط، والحدود، ونوع الخط، ودرجة الثقة للنص، من خلال رؤوس تنبؤ بسيطة تعمل بالتوازي. علاوة على ذلك، نُظهر التوسع المدهش في أداء طريقتنا من حيث عدد فئات الرموز، ونوع اللغة، والمهام. من ناحية، تُظهر طريقتنا أداءً ممتازاً في المشاهد الإنجليزية، كما تُتقن الترقيم النصي في ظروف معقدة تشمل هيكل خطوط معقدة وعددًا كبيرًا من الرموز (بمئات أو آلاف الرموز)، مثل اللغة الصينية. ومن ناحية أخرى، تحقق DeepSolo++ أداءً أفضل في المهمة المُضافَة لتحديد الخط، مقارنةً بالطرق السابقة، وبمجرد مسار تدريب أبسط. بالإضافة إلى ذلك، تُظهر نماذجنا توافقاً مع التسميات الخطية (line annotations)، التي تتطلب تكلفة تسمية أقل بكثير من التسميات باستخدام مضلعات (polygons). يمكن الوصول إلى الشفرة المصدرية من خلال الرابط التالي: \url{https://github.com/ViTAE-Transformer/DeepSolo}.

DeepSolo++: دع مُفكِّك Transformer مع النقاط الصريحة تُنفِّذ وحيدًا للكشف عن النص متعدد اللغات | أحدث الأوراق البحثية | HyperAI