HyperAIHyperAI

Command Palette

Search for a command to run...

ERNIE-Layout: تدريب مُعزز بالمعرفة البصرية لفهم الوثائق الغنية بصرياً

الملخص

شهدت السنوات الأخيرة ارتفاعًا ونجاحًا في تقنيات التدريب المسبق لفهم الوثائق الغنية بصريًا. ومع ذلك، فإن معظم الطرق الحالية تفتقر إلى التنقيب المنظم والاستفادة من المعرفة المرتكزة على التخطيط (layout)، مما يؤدي إلى أداء غير مثالي. في هذا البحث، نقترح ERNIE-Layout، حل جديد للتدريب المسبق على الوثائق يعزز المعرفة بالتخطيط في جميع مراحل العملية، بهدف تعلم تمثيلات أفضل تجمع بين الخصائص النصية والتخطيطية والبصرية. بشكل خاص، نعيد ترتيب المتسلسلات الدخلية في مرحلة التسلسل (serialization)، ثم نقدم مهمة تدريب مسبقة ذات صلة وهي التنبؤ بترتيب القراءة لتعلم الترتيب الصحيح لقراءة الوثائق. لتحسين وعي النموذج بالتخطيط، قمنا بدمج انتباه فك الارتباط ذو الوعي المكاني (spatial-aware disentangled attention) في المتحول متعدد الأوضاع (multi-modal transformer) ومهمة التنبؤ بالمناطق المستبدلة (replaced regions prediction) في مرحلة التدريب المسبق. تظهر النتائج التجريبية أن ERNIE-Layout حقق أداءً متفوقًا في مجموعة متنوعة من المهام الثانوية، وأقام معايير جديدة لأفضل الأداء في استخراج المعلومات الرئيسية، تصنيف الصور الوثائقية، وطرح أسئلة على الوثائق. الرمز البرمجي والنموذج متاحان للعامة على الرابط: http://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ERNIE-Layout: تدريب مُعزز بالمعرفة البصرية لفهم الوثائق الغنية بصرياً | مستندات | HyperAI