HyperAIHyperAI
منذ 2 أشهر

شبكة عصبية قابلة للتدريب من البداية إلى النهاية للاعتراف بالتواليات المستندة إلى الصور وتطبيقاتها في اعتراف النصوص في البيئة

Baoguang Shi; Xiang Bai; Cong Yao
شبكة عصبية قابلة للتدريب من البداية إلى النهاية للاعتراف بالتواليات المستندة إلى الصور وتطبيقاتها في اعتراف النصوص في البيئة
الملخص

التعرف على التسلسلات المستندة إلى الصور كان موضوع بحث مستمر في مجال رؤية الحاسوب. في هذا البحث، ندرس مشكلة التعرف على النصوص في المشاهد، وهي من أهم وأصعب المهام في التعرف على التسلسلات المستندة إلى الصور. تم اقتراح معمارية شبكة عصبية جديدة تدمج استخراج الخصائص ونمذجة التسلسل والكتابة في إطار موحد. بالمقارنة مع الأنظمة السابقة للتعرف على النصوص في المشاهد، تتميز المعمارية المقترحة بأربع خصائص مميزة: (1) يمكن تدريبها بشكل شامل من البداية إلى النهاية، بخلاف معظم الخوارزميات الموجودة التي يتم تدريب وتuning مكوناتها بشكل منفصل. (2) تعامل بشكل طبيعي مع التسلسلات ذات الأطوال العشوائية، دون الحاجة إلى تقسيم الحروف أو تطبيع المقياس الأفقي. (3) ليست مقيدة بأي قاموس محدد سلفاً وتحقق أداءً ملحوظاً في كلا المهمتين: التعرف على النصوص في المشاهد بدون قاموس ومعتمدة على القاموس. (4) تولد نموذجاً فعالاً ولكنه أصغر بكثير، مما يجعله أكثر عملية للسيناريوهات التطبيقية الحقيقية. أظهرت التجارب على مقاييس القياس القياسية، بما في ذلك مجموعة بيانات IIIT-5K ومجموعة بيانات Street View Text ومجموعة بيانات ICDAR، تفوق الخوارزمية المقترحة على التقنيات السابقة. بالإضافة إلى ذلك، حققت الخوارزمية المقترحة أداءً جيداً في مهمة التعرف على النوت الموسيقية المستندة إلى الصور، مما يؤكد بوضوح عموميتها.请注意,"tuning" 一词在科技文献中通常指调整参数以优化性能,这里我将其翻译为 "ضبط"。如果需要进一步的专业术语一致性,请告知。

شبكة عصبية قابلة للتدريب من البداية إلى النهاية للاعتراف بالتواليات المستندة إلى الصور وتطبيقاتها في اعتراف النصوص في البيئة | أحدث الأوراق البحثية | HyperAI