الملخص

تستند الطرق الحالية للكشف عن النص في المشاهد (أي الكشف والتمييز المتسلسلان للنص) على تسميات مكلفة تتعلق بحدود المستطيلات (مثل حدود خط النص، أو الكلمة، أو الحرف). لأول مرة، نُظهر أن يمكن تدريب نماذج الكشف عن النص في المشاهد باستخدام تسمية مكلفة جدًا، تتمثل في نقطة واحدة فقط لكل كائن. نقترح طريقة متكاملة للكشف عن النص في المشاهد، حيث نعامل الكشف عن النص في المشاهد كمهمة تنبؤ بالتسلسل. عند إدخال صورة، نُصِرِّح النتائج المرغوبة للكشف والتمييز كتسلسل من الرموز المنفصلة، ونستخدم نموذج تحويل متسلسل (Transformer) متسلسل ذاتيًا للتنبؤ بهذا التسلسل. تُعد هذه الطريقة بسيطة وفعالة، ويمكنها تحقيق نتائج متفوقة على المعايير الشائعة المستخدمة على نطاق واسع. والأهم من ذلك، نُظهر أن الأداء لا يتأثر كثيرًا بمواقع التسمية النقطية، ما يعني أنه يمكن تسميتها بسهولة أكبر، أو حتى توليد تسميات تلقائية لها، مقارنةً بحدود المستطيلات التي تتطلب دقة عالية في المواقع. نعتقد أن هذه المحاولة الرائدة تُشير إلى فرصة كبيرة لتطبيقات الكشف عن النص في المشاهد على نطاق أوسع بكثير مما كان ممكنًا سابقًا. يتوفر الكود على الرابط: https://github.com/shannanyinxiang/SPTS.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار