منذ 8 أشهر

الملخص

التدريب متعدد الوسائط باستخدام النص والتصميم والصورة حقق أداءً يتفوق على أفضل الأداءات (SOTA) في مهام فهم المستندات الغنية بصرياً مؤخراً، مما يدل على إمكانات كبيرة للتعلم المشترك عبر وسائط مختلفة. في هذا البحث، نقدم LayoutXLM، وهو نموذج تدريب متعدد الوسائط لفهم المستندات متعددة اللغات، ويهدف إلى جسر الفجوة اللغوية في فهم المستندات الغنية بصرياً. لتقييم LayoutXLM بدقة، قدمنا أيضًا مجموعة بيانات معيارية متعددة اللغات لفهم النماذج تُسمى XFUND، والتي تشمل عينات من فهم النماذج بسبع لغات (الصينية، اليابانية، الإسبانية، الفرنسية، الإيطالية، الألمانية، البرتغالية)، وقد تم تصنيف الأزواج الرئيسية-القيمة يدويًا لكل لغة. أظهرت نتائج التجارب أن نموذج LayoutXLM قد تفوق بشكل كبير على النماذج المدربة المتقاطعة الحالية التي تعتبر أفضل الأداءات (SOTA) في مجموعة البيانات XFUND. يمكن الوصول إلى النموذج المدرب مسبقًا LayoutXLM ومجموعة البيانات XFUND بشكل عام على الرابط https://aka.ms/layoutxlm.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار