SPTS: الكشف عن النص النقطي الواحد

تستند الطرق الحالية للكشف عن النص في المشاهد (أي الكشف والتمييز المتسلسلان للنص) على تسميات مكلفة تتعلق بحدود المستطيلات (مثل حدود خط النص، أو الكلمة، أو الحرف). لأول مرة، نُظهر أن يمكن تدريب نماذج الكشف عن النص في المشاهد باستخدام تسمية مكلفة جدًا، تتمثل في نقطة واحدة فقط لكل كائن. نقترح طريقة متكاملة للكشف عن النص في المشاهد، حيث نعامل الكشف عن النص في المشاهد كمهمة تنبؤ بالتسلسل. عند إدخال صورة، نُصِرِّح النتائج المرغوبة للكشف والتمييز كتسلسل من الرموز المنفصلة، ونستخدم نموذج تحويل متسلسل (Transformer) متسلسل ذاتيًا للتنبؤ بهذا التسلسل. تُعد هذه الطريقة بسيطة وفعالة، ويمكنها تحقيق نتائج متفوقة على المعايير الشائعة المستخدمة على نطاق واسع. والأهم من ذلك، نُظهر أن الأداء لا يتأثر كثيرًا بمواقع التسمية النقطية، ما يعني أنه يمكن تسميتها بسهولة أكبر، أو حتى توليد تسميات تلقائية لها، مقارنةً بحدود المستطيلات التي تتطلب دقة عالية في المواقع. نعتقد أن هذه المحاولة الرائدة تُشير إلى فرصة كبيرة لتطبيقات الكشف عن النص في المشاهد على نطاق أوسع بكثير مما كان ممكنًا سابقًا. يتوفر الكود على الرابط: https://github.com/shannanyinxiang/SPTS.