HyperAIHyperAI
منذ 2 أشهر

مكتشف نص بأشكال عشوائية متنوعة بالاعتماد على التعلم متعدد المهام مع الاهتمام السياقي

Pengfei Wang; Chengquan Zhang; Fei Qi; Zuming Huang; Mengyi En; Junyu Han; Jingtuo Liu; Errui Ding; Guangming Shi
مكتشف نص بأشكال عشوائية متنوعة بالاعتماد على التعلم متعدد المهام مع الاهتمام السياقي
الملخص

اكتشاف النصوص في المشاهد بأشكالها المختلفة كان مهمة صعبة على مدى السنوات الماضية. في هذا البحث، نقترح منظم نص جديد يعتمد على تقسيم الصور، أطلق عليه اسم SAST، والذي يستخدم إطار تعلم متعدد المهام معتمد على شبكة كاملة التحويل (Fully Convolutional Network - FCN) لتعلم الخصائص الهندسية المختلفة لإعادة بناء تمثيل متعدد الزوايا للمناطق النصية. بالنظر إلى الخصائص المتسلسلة للنصوص، تم تقديم كتلة اهتمام السياق (Context Attention Block) لالتقاط الارتباطات طويلة المدى لمعلومات البكسل للحصول على تقسيم أكثر موثوقية. في مرحلة المعالجة اللاحقة، تم اقتراح طريقة تعيين النقاط إلى الأشكال رباعية الأضلاع (Point-to-Quad assignment method) لتجميع البكسلات إلى حالات نصية من خلال دمج المعرفة العالية المستوى للموضوع والمعلومات المنخفضة المستوى للبكسل في خطوة واحدة. بالإضافة إلى ذلك، يمكن استخراج التمثيل المتعدد الزوايا للنصوص ذات الأشكال العشوائية بشكل أكثر فعالية باستخدام الخصائص الهندسية المقترحة. أظهرت التجارب على عدة مقاييس مرجعية، بما في ذلك ICDAR2015 و ICDAR2017-MLT و SCUT-CTW1500 و Total-Text، أن SAST يحقق أداءً أفضل أو مكافئًا من حيث الدقة. علاوة على ذلك، يعمل الخوارزم المقترح بمعدل 27.63 إطارًا في الثانية (FPS) على SCUT-CTW1500 مع معدل Hmean يبلغ 81.0% على بطاقة رسوميات NVIDIA Titan Xp واحدة، مما يتفوق على معظم الطرق القائمة على التقسيم الحالية.

مكتشف نص بأشكال عشوائية متنوعة بالاعتماد على التعلم متعدد المهام مع الاهتمام السياقي | أحدث الأوراق البحثية | HyperAI