HyperAIHyperAI
منذ 2 أشهر

التدريب الذاتي للتنقيط من حرف إلى حرف للاعتراف بالنص

Tongkun Guan; Wei Shen; Xue Yang; Qi Feng; Zekun Jiang; Xiaokang Yang
التدريب الذاتي للتنقيط من حرف إلى حرف للاعتراف بالنص
الملخص

عند التعامل مع صور النصوص المعقدة (مثل الهياكل غير المنتظمة، الدقة المنخفضة، التغطية الكثيفة، والإضاءة غير المتساوية)، تكون طرق التعرف على النصوص المراقبة الحالية متعطشة للبيانات. رغم أن هذه الطرق تستخدم صور نصوص مصنعة على نطاق واسع لتقليل الاعتماد على الصور الحقيقية المشمولة بالتعليقات، فإن الفجوة بين المجالات لا تزال تحد من أداء التعرف. لذلك، استكشاف تمثيلات الخصائص النصية القوية في الصور الحقيقية غير المشمولة بالتعليقات عبر التعلم الذاتي هو حل جيد. ومع ذلك، فإن طرق التعرف على النصوص ذاتية الرقابة الحالية تقوم بتعلم التمثيل من سلسلة إلى سلسلة عن طريق تقسيم الخصائص البصرية بشكل خشن على المحور الأفقي، مما يحد من مرونة التعديلات، حيث قد يؤدي التعديل الهندسي الكبير إلى عدم اتساق في خصائص التمثيل من سلسلة إلى سلسلة. انطلاقًا من هذا الدافع، نقترح طريقة جديدة للتقطير الذاتي من حرف إلى حرف (Character-to-Character Distillation)، اختصاراً CCD، والتي تتيح إجراء تعديلات متعددة لتسهيل تعلم تمثيل النص العام. تحديدًا، نحدد هياكل الحروف في الصور الحقيقية غير المشمولة بالتعليقات من خلال تصميم وحدة تصنيف حروف ذاتية الرقابة. بعد ذلك، يمكن لـ CCD بسهولة زيادة تنوع الحروف المحلية بينما تحتفظ بمطابقتها الزوجية تحت تعديلات مرنة باستخدام مصفوفة التحويل بين وجهين معدلين من الصورة. تظهر التجارب أن CCD تحقق أفضل النتائج حتى الآن، مع زيادة متوسط الأداء بنسبة 1.38% في التعرف على النصوص، 1.7% في تصنيف النصوص، 0.24 ديسيبل (PSNR) و0.0321 (SSIM) في زيادة دقة النصوص. يمكن الوصول إلى الكود في https://github.com/TongkunGuan/CCD.

التدريب الذاتي للتنقيط من حرف إلى حرف للاعتراف بالنص | أحدث الأوراق البحثية | HyperAI