HyperAIHyperAI
منذ 8 أيام

ABINet++: نمذجة لغوية تلقائية وثنائية الاتجاه ومتكررة لتحديد النص في المشهد

Shancheng Fang, Zhendong Mao, Hongtao Xie, Yuxin Wang, Chenggang Yan, Yongdong Zhang
ABINet++: نمذجة لغوية تلقائية وثنائية الاتجاه ومتكررة لتحديد النص في المشهد
الملخص

إن الكشف عن النص في المشهد يُعد أمرًا ذا أهمية كبيرة للمجتمع البصري الحاسوبي نظرًا لتنوع تطبيقاته الواسعة. حاولت الطرق الحديثة إدخال المعرفة اللغوية لتحسين التعرف على النصوص الصعبة، بدلًا من الاعتماد فقط على التصنيف البصري. ومع ذلك، ما زال التحدي البحثي متمثلًا في كيفية نمذجة قواعد اللغة بشكل فعّال ضمن الشبكات العميقة النهائية. في هذا البحث، ندّعي أن القدرة المحدودة للنماذج اللغوية تعود إلى ثلاث أسباب: أولاً، النمذجة اللغوية الضمنية؛ ثانيًا، تمثيل الميزات في اتجاه واحد فقط؛ ثالثًا، استخدام نموذج لغوي يُغذَّى ببيانات مُشوَّشة. وعليه، نقترح نموذجًا تلقائيًا، ثنائي الاتجاه، وتكراريًا يُسمّى ABINet++ للكشف عن النص في المشهد. أولاً، يشير مصطلح "تلقائي" إلى تطبيق نمذجة لغوية صريحة من خلال فصل معالج النص إلى نموذجين منفصلين: نموذج بصري ونموذج لغوي، مع منع تدفق التدرج (gradient flow) بين النموذجين. ثانيًا، نقترح شبكة جديدة لغوية تُسمّى شبكة النص المفتوح ثنائي الاتجاه (BCN) تعتمد على تمثيل ثنائي الاتجاه للميزات. ثالثًا، نقترح أسلوبًا تكراريًا للتصحيح في النموذج اللغوي، والذي يُقلل بشكل فعّال من تأثير البيانات المُشوَّشة. وأخيرًا، لتحسين أداء ABINet++ في التعرف على النصوص الطويلة، نقترح تجميع الميزات الأفقية من خلال دمج وحدات Transformer داخل هيكل U-Net، ونصمم وحدة انتباه تأخذ بعين الاعتبار كل من الموقع والمحتوى، مما يسمح بالتركيز بدقة على ميزات الحروف. أظهر ABINet++ أداءً متقدمًا على مستوى الحالة الحالية (SOTA) في كلا مجموعتي بيانات التعرف على النص في المشهد والكشف عن النص في المشهد، مما يثبت باستمرار تفوق طريقة العمل لدينا في بيئات مختلفة، وبخاصة على الصور منخفضة الجودة. علاوة على ذلك، أثبتت التجارب الواسعة التي أجريت باللغة الإنجليزية والصينية أن كاشف النص الذي يدمج طريقة النمذجة اللغوية المُقترحة يمكنه تحسين أدائه بشكل ملحوظ من حيث الدقة والسرعة مقارنةً بالمعالجات الشائعة القائمة على الانتباه.

ABINet++: نمذجة لغوية تلقائية وثنائية الاتجاه ومتكررة لتحديد النص في المشهد | أحدث الأوراق البحثية | HyperAI