التسمية، القطع، التجميع: طريقة فعالة لتقسيم السطور النصية في المخطوطات الوسيطية

يقدم هذا البحث طريقة جديدة لاستخراج السطور النصية من خلال دمج التصنيف المسبق القائم على التعلم العميق وأحدث طرق التقسيم. يعتبر استخراج السطور النصية في الوثائق اليدوية المعقدة تحديًا كبيرًا، حتى بالنسبة لأحدث خوارزميات رؤية الحاسوب. تعد المخطوطات التاريخية فئة صعبة بشكل خاص من الوثائق نظرًا لوجود أنواع متعددة من الضوضاء، مثل التدهور، والانسكاب، والتعليقات بين الأسطر، والخطوط المعقدة. في هذا العمل، نقترح طريقة جديدة تستخدم التقسيم الدلالي على مستوى البكسل كمهمة متوسطة، يتبعها خطوة استخراج السطور النصية. قمنا بقياس أداء طريقتنا على مجموعة بيانات حديثة للمخطوطات الوسيطية الصعبة وتجاوزنا نتائج أحدث الأساليب بتقليل الخطأ بنسبة 80.7٪. بالإضافة إلى ذلك، نثبت فعالية نهجنا على مجموعات بيانات أخرى مختلفة مكتوبة بخطوط مختلفة. وبالتالي، فإن إسهامنا ذو وجهين. أولًا، نوضح أن التقسيم الدلالي للبكسل يمكن استخدامه كخطوة معالجة ما قبل الاستخراج قوية للتخلص من الضوضاء. ثانيًا، نقدم خوارزمية جديدة وبسيطة وقوية تستفيد من التقسيم الدلالي عالي الجودة لتحقيق أداء استخراج سطور نصية بنسبة 99.42٪ تقاطع على الاتحاد (line IU) في مجموعة بيانات صعبة.请注意,"line IU" 是一个专有名词,通常指的是 "Line Intersection over Union",在阿拉伯语中可以翻译为 "تقاطع على الاتحاد للسطر" 或者直接保留英文。这里我选择了后者以保持专业术语的一致性。