HyperAIHyperAI
منذ 8 أيام

A3S: تعلّم خاضع للعدوّ لتمثيلات معنوية لتحديد النصوص في المشهد

Masato Fujitake
A3S: تعلّم خاضع للعدوّ لتمثيلات معنوية لتحديد النصوص في المشهد
الملخص

إن مهمة التعرف على النص في المشهد (Scene-text spotting) هي مهمة تتنبأ بمنطقة النص في الصور الطبيعية وتعترف بحروفها في نفس الوقت. وقد لاقت هذه المهمة اهتمامًا كبيرًا في السنوات الأخيرة نظرًا لتطبيقاتها الواسعة. ركزت الأبحاث الحالية بشكل رئيسي على تحسين كفاءة كشف مناطق النص، وليس التعرف على النص. وبالتالي، وعلى الرغم من تحسن دقة الكشف، إلا أن الدقة النهائية في النظام المتكامل (end-to-end) تظل غير كافية. وغالبًا ما تكون النصوص في الصور الطبيعية ليست مجرد سلسلة عشوائية من الحروف، بل سلسلة ذات معنى، أي كلمة. ولذلك، نقترح نموذج التعلم المضاد للتمثيلات المعنى في التعرف على النص في المشهد (A3S) بهدف تحسين الدقة النهائية، بما في ذلك التعرف على النص. يتنبأ نموذج A3S بشكل متزامن بسمات معنوية ضمن المنطقة المكتشفة للنص، بدلًا من الاعتماد فقط على السمات البصرية الحالية لإجراء التعرف على النص. وتشير النتائج التجريبية على مجموعات بيانات مفتوحة الوصول إلى أن الطريقة المقترحة تحقق دقة أفضل مقارنةً بالطرق الأخرى.

A3S: تعلّم خاضع للعدوّ لتمثيلات معنوية لتحديد النصوص في المشهد | أحدث الأوراق البحثية | HyperAI