HyperAIHyperAI

Command Palette

Search for a command to run...

ترتيب القراءة مهم: استخراج المعلومات من الوثائق الغنية بصرياً من خلال التنبؤ بمسار الرموز

Zhang Chong ; Guo Ya ; Tu Yi ; Chen Huan ; Tang Jinyang ; Zhu Huijia ; Zhang Qi ; Gui Tao

الملخص

التطورات الحديثة في نماذج التعلم المسبق متعددة الوسائط قد أحدثت تحسينات كبيرة في استخراج المعلومات من المستندات الغنية بصرياً (VrDs)، حيث يتم التعامل مع تحديد الكيانات المسماة (NER) كمهمة تصنيف تسلسلي لتنبؤ العلامات الحقيقية للرموز النصية، وفقًا للإعداد النموذجي للمعالجة اللغوية الطبيعية (NLP). ومع ذلك، تعتمد خطة العلامات الحقيقية على الترتيب الصحيح لمدخلات النموذج، وهو أمر غير مضمون في تحديد الكيانات المسماة في العالم الحقيقي على المستندات الممسوحة ضوئيًا حيث يتم التعرف على النصوص وترتيبها بواسطة أنظمة التعرف البصري على الأحرف (OCR). يعيق هذا المشكل في ترتيب القراءة عملية وضع علامات دقيقة على الكيانات بواسطة خطة العلامات الحقيقية، مما يجعل من المستحيل على طرق التصنيف التسلسلي تنبؤ الكيانات المسماة بشكل صحيح. لحل مشكلة ترتيب القراءة، نقدم تقنية تنبؤ مسار الرمز (TPP)، وهي رأس تنبؤ بسيط يتنبأ بالذكرى الكيانية كمتتابعات من الرموز داخل المستند. بدلاً من تصنيف الرموز، تقوم تقنية TPP بتقديم تصميم المستند كبيان موجه كامل للرموز، وتنبؤ المسارات الرمزية داخل البيان ككيانات. كما اقترحنا أيضًا مجموعتين جديدتين من البيانات المرجعية لتحديد الكيانات المسماة على المستندات الممسوحة ضوئيًا لتقييم أفضل لأنظمة VrD-NER، والتي يمكن أن تعكس السيناريوهات الواقعية. أظهرت نتائج التجارب فعالية طريقتنا وأشرت إلى إمكاناتها لأن تكون حلًا شاملًا لمهام مختلفة لاستخراج المعلومات من المستندات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp