HyperAIHyperAI
منذ 16 أيام

استكشاف القدرة الشبكية لشبكة التجزئة بدون ترتيب للمربعات للكشف عن النص المسرحي متعدد الاتجاهات

Yuliang Liu, Tong He, Hao Chen, Xinyu Wang, Canjie Luo, Shuaitao Zhang, Chunhua Shen, Lianwen Jin
استكشاف القدرة الشبكية لشبكة التجزئة بدون ترتيب للمربعات للكشف عن النص المسرحي متعدد الاتجاهات
الملخص

تمثل كشف النص في المشاهد متعددة الاتجاهات محور اهتمام بحثي كبير في الآونة الأخيرة. اعتمد الطرق السابقة على توقع الكلمات أو خطوط النص مباشرة، وغالبًا ما تم ذلك باستخدام أشكال رباعية الأضلاع. ومع ذلك، تجاهل العديد من هذه الطرق الأهمية التي تمثلها التسمية المتسقة، والتي تُعد حاسمة في الحفاظ على استقرار عملية التدريب، خاصةً عند التعامل مع كميات كبيرة من البيانات. ولحل هذه المشكلة، نقترح طريقة جديدة تُسمى "تَجزئة الصندوق بدون ترتيب" (OBD)، والتي تقوم أولاً بتفكيك الصندوق الرباعي إلى عدة حواف رئيسية تحتوي على جميع المواقع المحتملة أفقيًا وعموديًا. ولإعادة بناء صناديق الحدود الرباعية بدقة، تم اقتراح إجراء تطابق بسيط وفعال. تحل هذه الطريقة مشكلة الغموض التي تؤثر بشكل كبير على عملية التعلم. وقد أجرينا دراسات تحليلية واسعة لتأكيد الفعالية الكمية للطريقة المقترحة. والأهم من ذلك، استنادًا إلى OBD، قمنا بتحليل مفصل لتأثير مجموعة من التحسينات، مما قد يُلهم آخرين لتطوير كاشفات نصية متطورة للغاية. وبدمج OBD مع هذه التحسينات المفيدة، تحققنا بأداء متميز على مجموعة متنوعة من المعايير، بما في ذلك ICDAR 2015 وMLT. كما حصلت طريقة لدينا على المركز الأول في مهمة كشف النص ضمن التحدي الصلب لقراءة النصوص في ICDAR2019، خصوصًا في مهمة قراءة النص الصيني على لوحات الإشارة، مما يُثبت أداءها المتميز بشكل إضافي. يمكن الاطلاع على الكود من خلال الرابط: https://git.io/TextDet.

استكشاف القدرة الشبكية لشبكة التجزئة بدون ترتيب للمربعات للكشف عن النص المسرحي متعدد الاتجاهات | أحدث الأوراق البحثية | HyperAI