HyperAIHyperAI
منذ 2 أشهر

LayoutLMv2: التدريب متعدد الوسائط لفهم المستندات الغنية بصرياً

Xu, Yang ; Xu, Yiheng ; Lv, Tengchao ; Cui, Lei ; Wei, Furu ; Wang, Guoxin ; Lu, Yijuan ; Florencio, Dinei ; Zhang, Cha ; Che, Wanxiang ; Zhang, Min ; Zhou, Lidong
LayoutLMv2: التدريب متعدد الوسائط لفهم المستندات الغنية بصرياً
الملخص

أثبتت التدريب المسبق للنص والتصميم فعاليته في مجموعة متنوعة من مهام فهم الوثائق الغنية بصرياً بفضل هندسة نموذجها الفعالة وميزة الوثائق المسحية/الرقمية غير المصنفة على نطاق واسع. نقترح هندسة LayoutLMv2 مع مهام تدريب مسبق جديدة لنمذجة التفاعل بين النص والتصميم والصورة في إطار متعدد الأوضاع واحد. تحديداً، باستخدام كودير Transformer متعدد الأوضاع ذو التيارين، يستخدم LayoutLMv2 ليس فقط مهمة النمذجة المرئية-اللغوية المقنعة الموجودة بالفعل ولكن أيضاً مهمتين جديدتين هما تنسيق النص-الصورة ومطابقة النص-الصورة، مما يجعله يلتقط التفاعل عبر الأوضاع بشكل أفضل في مرحلة التدريب المسبق. وفي الوقت نفسه، يتم دمج آلية الانتباه الذاتي الحساس للموقع في هيكل Transformer بحيث يمكن للنموذج أن يفهم تماماً العلاقة الموضعية النسبية بين مختلف الكتل النصية. تظهر نتائج التجارب أن LayoutLMv2 يتفوق على LayoutLM بمقدار كبير ويحقق نتائج جديدة رائدة على مجموعة واسعة من مهام فهم الوثائق الغنية بصرياً التي تأتي بعد ذلك، بما في ذلك FUNSD (0.7895 → 0.8420)، CORD (0.9493 → 0.9601)، SROIE (0.9524 → 0.9781)، Kleister-NDA (0.8340 → 0.8520)، RVL-CDIP (0.9443 → 0.9564)، و DocVQA (0.7295 → 0.8672). جعلنا نموذجنا وكودنا متاحين للجمهور على الرابط \url{https://aka.ms/layoutlmv2}.

LayoutLMv2: التدريب متعدد الوسائط لفهم المستندات الغنية بصرياً | أحدث الأوراق البحثية | HyperAI