LayoutXLM: التدريب متعدد الوسائط للتفهم متعدد اللغات للوثائق الغنية بصرياً

التدريب متعدد الوسائط باستخدام النص والتصميم والصورة حقق أداءً يتفوق على أفضل الأداءات (SOTA) في مهام فهم المستندات الغنية بصرياً مؤخراً، مما يدل على إمكانات كبيرة للتعلم المشترك عبر وسائط مختلفة. في هذا البحث، نقدم LayoutXLM، وهو نموذج تدريب متعدد الوسائط لفهم المستندات متعددة اللغات، ويهدف إلى جسر الفجوة اللغوية في فهم المستندات الغنية بصرياً. لتقييم LayoutXLM بدقة، قدمنا أيضًا مجموعة بيانات معيارية متعددة اللغات لفهم النماذج تُسمى XFUND، والتي تشمل عينات من فهم النماذج بسبع لغات (الصينية، اليابانية، الإسبانية، الفرنسية، الإيطالية، الألمانية، البرتغالية)، وقد تم تصنيف الأزواج الرئيسية-القيمة يدويًا لكل لغة. أظهرت نتائج التجارب أن نموذج LayoutXLM قد تفوق بشكل كبير على النماذج المدربة المتقاطعة الحالية التي تعتبر أفضل الأداءات (SOTA) في مجموعة البيانات XFUND. يمكن الوصول إلى النموذج المدرب مسبقًا LayoutXLM ومجموعة البيانات XFUND بشكل عام على الرابط https://aka.ms/layoutxlm.