HyperAIHyperAI

Command Palette

Search for a command to run...

LayoutLMv3: التدريب المسبق لذكاء المستندات بتوحيد تغطية النص والصورة

Yupan Huang Tengchao Lv Lei Cui Yutong Lu Furu Wei

الملخص

حققت تقنيات التدريب الذاتي المسبق تقدماً ملحوظاً في مجال ذكاء المستندات (Document AI). ومع ذلك، فإن معظم النماذج المتعددة الأوضاع التي تم تدريبها مسبقاً تستخدم هدف نمذجة اللغة المقنعة لتعلم التمثيلات ثنائية الاتجاه في وضعية النص، ولكنها تختلف في أهداف التدريب المسبق لوضعية الصورة. يضيف هذا الاختلاف صعوبة إلى تعلم التمثيلات المتعددة الأوضاع. في هذه الورقة البحثية، نقترح \textbf{LayoutLMv3} للتدريب المسبق للمتحولات (Transformers) المتعددة الأوضاع في مجال ذكاء المستندات باستخدام قناع موحد للنص والصورة. بالإضافة إلى ذلك، يتم تدريب LayoutLMv3 بهدف تنسيق الكلمة-الشريحة للتعلم من التناظر بين الأوضاع من خلال التنبؤ عما إذا كانت الشريحة الصورية المقابلة لكلمة نصية معينة مقنعة أم لا. يجعل البُنية الموحدة البسيطة وأهداف التدريب LayoutLMv3 نموذجاً مسبقاً عاماً يناسب كلاً من المهام التي تعتمد على النص والمهام التي تعتمد على الصورة في مجال ذكاء المستندات. تظهر نتائج التجارب أن LayoutLMv3 حقق أداءً رائداً ليس فقط في المهام المعتمدة على النص مثل فهم الاستمارات وفهم الفواتير وطرح أسئلة بصرية على المستندات، بل أيضاً في المهام المعتمدة على الصورة مثل تصنيف صور المستندات وتحليل تنسيق المستندات. يمكن الوصول إلى الكود والنماذج بشكل عام عبر الرابط \url{https://aka.ms/layoutlmv3}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp