HyperAIHyperAI
منذ شهر واحد

Mask TextSpotter: شبكة عصبية عصبية قابلة للتدريب من البداية إلى النهاية لاكتشاف النصوص ذات الأشكال العشوائية

Pengyuan Lyu; Minghui Liao; Cong Yao; Wenhao Wu; Xiang Bai
Mask TextSpotter: شبكة عصبية عصبية قابلة للتدريب من البداية إلى النهاية لاكتشاف النصوص ذات الأشكال العشوائية
الملخص

في الآونة الأخيرة، تفوقت النماذج المستندة إلى الشبكات العصبية العميقة في مجالات كشف النصوص في المشاهد وتعرفها. وفي هذا البحث، ندرس مشكلة تحديد النصوص في المشاهد (scene text spotting)، والتي تهدف إلى الكشف عن النصوص وتعرفها بشكل متزامن في الصور الطبيعية. تم اقتراح نموذج شبكة عصبية قابل للتدريب من البداية إلى النهاية لتحديد النصوص في المشاهد. يُطلق على النموذج المقترح اسم Mask TextSpotter، وهو مستوحى من العمل الجديد Mask R-CNN. يختلف Mask TextSpotter عن الأساليب السابقة التي تحقق أيضًا تحديد وتعرف النصوص باستخدام شبكات عصبية عميقة قابلة للتدريب من البداية إلى النهاية، حيث يستفيد من إجراء تعلم بسيط ومooth من البداية إلى النهاية، يتم فيه الحصول على الكشف الدقيق عن النصوص والتعرف عليها عبر التجزئة الدلالية (semantic segmentation). بالإضافة إلى ذلك، فهو أفضل من الأساليب السابقة في التعامل مع حالات النصوص ذات الأشكال غير المنتظمة، مثل النص المنحني (curved text). أظهرت التجارب على مجموعات البيانات ICDAR2013 و ICDAR2015 و Total-Text أن الطريقة المقترحة حققت نتائج رائدة في كل من مهام كشف النصوص في المشاهد والتعرف عليها من البداية إلى النهاية.请注意,"mooth" 在上述翻译中可能是笔误,正确的应该是 "سلس". 因此,正确的翻译应为:في الآونة الأخيرة، تفوقت النماذج المستندة إلى الشبكات العصبية العميقة في مجالات كشف النصوص في المشاهد وتعرفها. وفي هذا البحث، ندرس مشكلة تحديد النصوص في المشاهد (scene text spotting)، والتي تهدف إلى الكشف عن النصوص وتعرفها بشكل متزامن في الصور الطبيعية. تم اقتراح نموذج شبكة عصبية قابل للتدريب من البداية إلى النهاية لتحديد النصوص في المشاهد. يُطلق على النموذج المقترح اسم Mask TextSpotter، وهو مستوحى من العمل الجديد Mask R-CNN. يختلف Mask TextSpotter عن الأساليب السابقة التي تحقق أيضًا تحديد وتعرف النصوص باستخدام شبكات عصبية عميقة قابلة للتدريب من البداية إلى النهاية، حيث يستفيد من إجراء تعلم بسيط وسلس من البداية إلى النهاية، يتم فيه الحصول على الكشف الدقيق عن النصوص والتعرف عليها عبر التجزئة الدلالية (semantic segmentation). بالإضافة إلى ذلك، فهو أفضل من الأساليب السابقة في التعامل مع حالات النصوص ذات الأشكال غير المنتظمة، مثل النص المنحني (curved text). أظهرت التجارب على مجموعات البيانات ICDAR2013 و ICDAR2015 و Total-Text أن الطريقة المقترحة حققت نتائج رائدة في كل من مهام كشف النصوص في المشاهد والتعرف عليها من البداية إلى نهاية.

Mask TextSpotter: شبكة عصبية عصبية قابلة للتدريب من البداية إلى النهاية لاكتشاف النصوص ذات الأشكال العشوائية | أحدث الأوراق البحثية | HyperAI