HyperAIHyperAI
منذ 2 أشهر

ترتيب القراءة مهم: استخراج المعلومات من الوثائق الغنية بصرياً من خلال التنبؤ بمسار الرموز

Zhang, Chong ; Guo, Ya ; Tu, Yi ; Chen, Huan ; Tang, Jinyang ; Zhu, Huijia ; Zhang, Qi ; Gui, Tao
ترتيب القراءة مهم: استخراج المعلومات من الوثائق الغنية بصرياً من خلال التنبؤ بمسار الرموز
الملخص

التطورات الحديثة في نماذج التعلم المسبق متعددة الوسائط قد أحدثت تحسينات كبيرة في استخراج المعلومات من المستندات الغنية بصرياً (VrDs)، حيث يتم التعامل مع تحديد الكيانات المسماة (NER) كمهمة تصنيف تسلسلي لتنبؤ العلامات الحقيقية للرموز النصية، وفقًا للإعداد النموذجي للمعالجة اللغوية الطبيعية (NLP). ومع ذلك، تعتمد خطة العلامات الحقيقية على الترتيب الصحيح لمدخلات النموذج، وهو أمر غير مضمون في تحديد الكيانات المسماة في العالم الحقيقي على المستندات الممسوحة ضوئيًا حيث يتم التعرف على النصوص وترتيبها بواسطة أنظمة التعرف البصري على الأحرف (OCR). يعيق هذا المشكل في ترتيب القراءة عملية وضع علامات دقيقة على الكيانات بواسطة خطة العلامات الحقيقية، مما يجعل من المستحيل على طرق التصنيف التسلسلي تنبؤ الكيانات المسماة بشكل صحيح. لحل مشكلة ترتيب القراءة، نقدم تقنية تنبؤ مسار الرمز (TPP)، وهي رأس تنبؤ بسيط يتنبأ بالذكرى الكيانية كمتتابعات من الرموز داخل المستند. بدلاً من تصنيف الرموز، تقوم تقنية TPP بتقديم تصميم المستند كبيان موجه كامل للرموز، وتنبؤ المسارات الرمزية داخل البيان ككيانات. كما اقترحنا أيضًا مجموعتين جديدتين من البيانات المرجعية لتحديد الكيانات المسماة على المستندات الممسوحة ضوئيًا لتقييم أفضل لأنظمة VrD-NER، والتي يمكن أن تعكس السيناريوهات الواقعية. أظهرت نتائج التجارب فعالية طريقتنا وأشرت إلى إمكاناتها لأن تكون حلًا شاملًا لمهام مختلفة لاستخراج المعلومات من المستندات.

ترتيب القراءة مهم: استخراج المعلومات من الوثائق الغنية بصرياً من خلال التنبؤ بمسار الرموز | أحدث الأوراق البحثية | HyperAI