Command Palette
Search for a command to run...
التعرف على النص في المشهد باستخدام نماذج التسلسل الذاتي المُحَوَّلَة
التعرف على النص في المشهد باستخدام نماذج التسلسل الذاتي المُحَوَّلَة
Darwin Bautista Rowel Atienza
الملخص
تُستخدم غالبًا طرق STR المستندة إلى السياق نماذج لغوية ذاتية التكرار (AR) داخليّة. وقد دفعت القيود الجوهرية للنماذج ذاتية التكرار إلى تطوير أساليب ثنائية المراحل التي تعتمد على نماذج لغوية خارجية. قد تؤدي الاستقلال الشرطي للنموذج اللغوي الخارجي عن الصورة المدخلة إلى تصحيح خاطئ للتنبؤات الصحيحة، مما يؤدي إلى كفاءة منخفضة جدًا. تتعلم طريقة PARSeq مجمّعًا من النماذج اللغوية ذاتية التكرار الداخلية مع مشاركة الأوزان باستخدام نمذجة اللغة بالترقيم (Permutation Language Modeling). وتحقيق التوحيد بين الاستدلال غير المستند إلى السياق (غير ذاتي التكرار) والاستدلال المستند إلى السياق (ذوي التكرار)، فضلًا عن التحسين التكراري باستخدام السياق ثنائي الاتجاه. وباستخدام بيانات تدريب اصطناعية، تحقق PARSeq نتائج قياسية حديثة (SOTA) في معايير STR (دقة 91.9٪) وبيانات أكثر تعقيدًا. كما تُسجّل نتائج قياسية جديدة (دقة 96.0٪) عند تدريبها على بيانات حقيقية. وتعتبر PARSeq مثالية من حيث التوازن بين الدقة وعدد المعلمات، وعدد العمليات الحسابية (FLOPS)، وتأخير الاستجابة، وذلك بفضل هيكلها البسيط الموحّد ومعالجة الرموز بالتوازي. وبسبب الاستخدام الواسع للانتباه، فإنها تتمتع بالثبات أمام النصوص ذات الاتجاهات العشوائية، وهي شائعة في الصور الواقعية. يمكن الوصول إلى الكود، والوزن المُدرّب مسبقًا، والبيانات عبر الرابط التالي: https://github.com/baudm/parseq.