HyperAIHyperAI
منذ 11 أيام

ميكسيت: نحو الكشف الدقيق عن نصوص المشهد الصعبة في البيئات الطبيعية

Yu-Xiang Zeng, Jun-Wei Hsieh, Xin Li, Ming-Ching Chang
ميكسيت: نحو الكشف الدقيق عن نصوص المشهد الصعبة في البيئات الطبيعية
الملخص

كشف النصوص الصغيرة في المشاهد الطبيعية يُعدّ تحديًا كبيرًا، حيث تؤدي تأثيرات المواقع غير المنتظمة والإضاءة غير المثالية غالبًا إلى أخطاء في الكشف. نقدم "MixNet"، وهي بنية هجينة تجمع بين مزايا الشبكات العصبية التلافيفية (CNNs) والمحولات (Transformers)، وتُعدّ قادرة على كشف النصوص الصغيرة بدقة من المشاهد الطبيعية الصعبة، بغض النظر عن الاتجاهات أو الأنماط أو ظروف الإضاءة. يضم MixNet وحدتين رئيسيتين: (1) شبكة الخلط المميز (FSNet) التي تعمل كهيكل أساسي، و(2) وحدة المحول المركزي (CTBlock) التي تستفيد من القيود الأحادية البُعد (1D manifold) الخاصة بالنُّصوص في المشاهد. نُقدّم أولًا استراتيجية جديدة لخلط الميزات في FSNet، تُسهِّل تبادل الميزات عبر مقاييس متعددة، مما يُنتج ميزات عالية الدقة تفوق الميزات الناتجة عن الشبكات الشهيرة مثل ResNet وHRNet. وقد حقق الهيكل الأساسي FSNet تحسينات كبيرة مقارنة بعدة طرق حالية للكشف عن النصوص، بما في ذلك PAN وDB وFAST. ثم قمنا بتصميم وحدة CTBlock المكملة، لاستغلال الميزات المستندة إلى الخط الوسطي (مثل المحور الوسيط من مناطق النص)، وبيّنا أن هذه الطريقة تفوق الطرق القائمة على المحيط في الحالات الصعبة عندما تظهر النصوص الصغيرة بشكل متقارب. أظهرت النتائج التجريبية الواسعة أن MixNet، الذي يدمج بين FSNet وCTBlock، يحقق نتائج متميزة على عدة مجموعات بيانات للكشف عن النصوص في المشاهد.

ميكسيت: نحو الكشف الدقيق عن نصوص المشهد الصعبة في البيئات الطبيعية | أحدث الأوراق البحثية | HyperAI