HyperAIHyperAI

Command Palette

Search for a command to run...

LayoutLMv2: التدريب متعدد الوسائط لفهم المستندات الغنية بصرياً

الملخص

أثبتت التدريب المسبق للنص والتصميم فعاليته في مجموعة متنوعة من مهام فهم الوثائق الغنية بصرياً بفضل هندسة نموذجها الفعالة وميزة الوثائق المسحية/الرقمية غير المصنفة على نطاق واسع. نقترح هندسة LayoutLMv2 مع مهام تدريب مسبق جديدة لنمذجة التفاعل بين النص والتصميم والصورة في إطار متعدد الأوضاع واحد. تحديداً، باستخدام كودير Transformer متعدد الأوضاع ذو التيارين، يستخدم LayoutLMv2 ليس فقط مهمة النمذجة المرئية-اللغوية المقنعة الموجودة بالفعل ولكن أيضاً مهمتين جديدتين هما تنسيق النص-الصورة ومطابقة النص-الصورة، مما يجعله يلتقط التفاعل عبر الأوضاع بشكل أفضل في مرحلة التدريب المسبق. وفي الوقت نفسه، يتم دمج آلية الانتباه الذاتي الحساس للموقع في هيكل Transformer بحيث يمكن للنموذج أن يفهم تماماً العلاقة الموضعية النسبية بين مختلف الكتل النصية. تظهر نتائج التجارب أن LayoutLMv2 يتفوق على LayoutLM بمقدار كبير ويحقق نتائج جديدة رائدة على مجموعة واسعة من مهام فهم الوثائق الغنية بصرياً التي تأتي بعد ذلك، بما في ذلك FUNSD (0.7895 → 0.8420)، CORD (0.9493 → 0.9601)، SROIE (0.9524 → 0.9781)، Kleister-NDA (0.8340 → 0.8520)، RVL-CDIP (0.9443 → 0.9564)، و DocVQA (0.7295 → 0.8672). جعلنا نموذجنا وكودنا متاحين للجمهور على الرابط \url{https://aka.ms/layoutlmv2}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
LayoutLMv2: التدريب متعدد الوسائط لفهم المستندات الغنية بصرياً | مستندات | HyperAI