HyperAIHyperAI
منذ 2 أشهر

LayoutLMv3: التدريب المسبق لذكاء المستندات بتوحيد تغطية النص والصورة

Huang, Yupan ; Lv, Tengchao ; Cui, Lei ; Lu, Yutong ; Wei, Furu
LayoutLMv3: التدريب المسبق لذكاء المستندات بتوحيد تغطية النص والصورة
الملخص

حققت تقنيات التدريب الذاتي المسبق تقدماً ملحوظاً في مجال ذكاء المستندات (Document AI). ومع ذلك، فإن معظم النماذج المتعددة الأوضاع التي تم تدريبها مسبقاً تستخدم هدف نمذجة اللغة المقنعة لتعلم التمثيلات ثنائية الاتجاه في وضعية النص، ولكنها تختلف في أهداف التدريب المسبق لوضعية الصورة. يضيف هذا الاختلاف صعوبة إلى تعلم التمثيلات المتعددة الأوضاع. في هذه الورقة البحثية، نقترح \textbf{LayoutLMv3} للتدريب المسبق للمتحولات (Transformers) المتعددة الأوضاع في مجال ذكاء المستندات باستخدام قناع موحد للنص والصورة. بالإضافة إلى ذلك، يتم تدريب LayoutLMv3 بهدف تنسيق الكلمة-الشريحة للتعلم من التناظر بين الأوضاع من خلال التنبؤ عما إذا كانت الشريحة الصورية المقابلة لكلمة نصية معينة مقنعة أم لا. يجعل البُنية الموحدة البسيطة وأهداف التدريب LayoutLMv3 نموذجاً مسبقاً عاماً يناسب كلاً من المهام التي تعتمد على النص والمهام التي تعتمد على الصورة في مجال ذكاء المستندات. تظهر نتائج التجارب أن LayoutLMv3 حقق أداءً رائداً ليس فقط في المهام المعتمدة على النص مثل فهم الاستمارات وفهم الفواتير وطرح أسئلة بصرية على المستندات، بل أيضاً في المهام المعتمدة على الصورة مثل تصنيف صور المستندات وتحليل تنسيق المستندات. يمكن الوصول إلى الكود والنماذج بشكل عام عبر الرابط \url{https://aka.ms/layoutlmv3}.

LayoutLMv3: التدريب المسبق لذكاء المستندات بتوحيد تغطية النص والصورة | أحدث الأوراق البحثية | HyperAI