HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة عصبية قابلة للتدريب من البداية إلى النهاية للاعتراف بالتواليات المستندة إلى الصور وتطبيقاتها في اعتراف النصوص في البيئة

Baoguang Shi Xiang Bai Cong Yao

الملخص

التعرف على التسلسلات المستندة إلى الصور كان موضوع بحث مستمر في مجال رؤية الحاسوب. في هذا البحث، ندرس مشكلة التعرف على النصوص في المشاهد، وهي من أهم وأصعب المهام في التعرف على التسلسلات المستندة إلى الصور. تم اقتراح معمارية شبكة عصبية جديدة تدمج استخراج الخصائص ونمذجة التسلسل والكتابة في إطار موحد. بالمقارنة مع الأنظمة السابقة للتعرف على النصوص في المشاهد، تتميز المعمارية المقترحة بأربع خصائص مميزة: (1) يمكن تدريبها بشكل شامل من البداية إلى النهاية، بخلاف معظم الخوارزميات الموجودة التي يتم تدريب وتuning مكوناتها بشكل منفصل. (2) تعامل بشكل طبيعي مع التسلسلات ذات الأطوال العشوائية، دون الحاجة إلى تقسيم الحروف أو تطبيع المقياس الأفقي. (3) ليست مقيدة بأي قاموس محدد سلفاً وتحقق أداءً ملحوظاً في كلا المهمتين: التعرف على النصوص في المشاهد بدون قاموس ومعتمدة على القاموس. (4) تولد نموذجاً فعالاً ولكنه أصغر بكثير، مما يجعله أكثر عملية للسيناريوهات التطبيقية الحقيقية. أظهرت التجارب على مقاييس القياس القياسية، بما في ذلك مجموعة بيانات IIIT-5K ومجموعة بيانات Street View Text ومجموعة بيانات ICDAR، تفوق الخوارزمية المقترحة على التقنيات السابقة. بالإضافة إلى ذلك، حققت الخوارزمية المقترحة أداءً جيداً في مهمة التعرف على النوت الموسيقية المستندة إلى الصور، مما يؤكد بوضوح عموميتها.请注意,"tuning" 一词在科技文献中通常指调整参数以优化性能,这里我将其翻译为 "ضبط"。如果需要进一步的专业术语一致性,请告知。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp