HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف على النص في المشهد باستخدام نماذج التسلسل الذاتي المُحَوَّلَة

Darwin Bautista Rowel Atienza

الملخص

تُستخدم غالبًا طرق STR المستندة إلى السياق نماذج لغوية ذاتية التكرار (AR) داخليّة. وقد دفعت القيود الجوهرية للنماذج ذاتية التكرار إلى تطوير أساليب ثنائية المراحل التي تعتمد على نماذج لغوية خارجية. قد تؤدي الاستقلال الشرطي للنموذج اللغوي الخارجي عن الصورة المدخلة إلى تصحيح خاطئ للتنبؤات الصحيحة، مما يؤدي إلى كفاءة منخفضة جدًا. تتعلم طريقة PARSeq مجمّعًا من النماذج اللغوية ذاتية التكرار الداخلية مع مشاركة الأوزان باستخدام نمذجة اللغة بالترقيم (Permutation Language Modeling). وتحقيق التوحيد بين الاستدلال غير المستند إلى السياق (غير ذاتي التكرار) والاستدلال المستند إلى السياق (ذوي التكرار)، فضلًا عن التحسين التكراري باستخدام السياق ثنائي الاتجاه. وباستخدام بيانات تدريب اصطناعية، تحقق PARSeq نتائج قياسية حديثة (SOTA) في معايير STR (دقة 91.9٪) وبيانات أكثر تعقيدًا. كما تُسجّل نتائج قياسية جديدة (دقة 96.0٪) عند تدريبها على بيانات حقيقية. وتعتبر PARSeq مثالية من حيث التوازن بين الدقة وعدد المعلمات، وعدد العمليات الحسابية (FLOPS)، وتأخير الاستجابة، وذلك بفضل هيكلها البسيط الموحّد ومعالجة الرموز بالتوازي. وبسبب الاستخدام الواسع للانتباه، فإنها تتمتع بالثبات أمام النصوص ذات الاتجاهات العشوائية، وهي شائعة في الصور الواقعية. يمكن الوصول إلى الكود، والوزن المُدرّب مسبقًا، والبيانات عبر الرابط التالي: https://github.com/baudm/parseq.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp