HyperAIHyperAI

Command Palette

Search for a command to run...

LayoutXLM: التدريب متعدد الوسائط للتفهم متعدد اللغات للوثائق الغنية بصرياً

Yiheng Xu Tengchao Lv Lei Cui Guoxin Wang Yijuan Lu Dinei Florencio Cha Zhang Furu Wei

الملخص

التدريب متعدد الوسائط باستخدام النص والتصميم والصورة حقق أداءً يتفوق على أفضل الأداءات (SOTA) في مهام فهم المستندات الغنية بصرياً مؤخراً، مما يدل على إمكانات كبيرة للتعلم المشترك عبر وسائط مختلفة. في هذا البحث، نقدم LayoutXLM، وهو نموذج تدريب متعدد الوسائط لفهم المستندات متعددة اللغات، ويهدف إلى جسر الفجوة اللغوية في فهم المستندات الغنية بصرياً. لتقييم LayoutXLM بدقة، قدمنا أيضًا مجموعة بيانات معيارية متعددة اللغات لفهم النماذج تُسمى XFUND، والتي تشمل عينات من فهم النماذج بسبع لغات (الصينية، اليابانية، الإسبانية، الفرنسية، الإيطالية، الألمانية، البرتغالية)، وقد تم تصنيف الأزواج الرئيسية-القيمة يدويًا لكل لغة. أظهرت نتائج التجارب أن نموذج LayoutXLM قد تفوق بشكل كبير على النماذج المدربة المتقاطعة الحالية التي تعتبر أفضل الأداءات (SOTA) في مجموعة البيانات XFUND. يمكن الوصول إلى النموذج المدرب مسبقًا LayoutXLM ومجموعة البيانات XFUND بشكل عام على الرابط https://aka.ms/layoutxlm.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp