HyperAIHyperAI

Command Palette

Search for a command to run...

LayoutMask: تعزيز التفاعل بين النص والتصميم في التدريب متعدد الأوضاع لفهم الوثائق

Yi Tu Ya Guo Huan Chen Jinyang Tang

الملخص

فهم الوثائق الغنية بصرياً (VrDU) جذب اهتمامًا بحثيًا كبيرًا على مدى السنوات الماضية. أدت النماذج المدربة مسبقًا على عدد كبير من صور الوثائق باستخدام نوى مستندة إلى الترانسفورمر إلى تحسينات كبيرة في الأداء في هذا المجال. التحدي الرئيسي هو كيفية دمج الأصناف المختلفة (النص، التخطيط، والصورة) للوثائق في نموذج موحد مع مهام تدريبية مسبقة مختلفة. يركز هذا البحث على تحسين التفاعلات بين النص والتخطيط ويقترح نموذج تدريب متعدد الأصناف جديد، وهو LayoutMask. يستخدم LayoutMask الموضع المحلي ذو البعد الواحد بدلاً من الموضع العالمي ذو البعد الواحد كمدخل للتخطيط ولديه هدفان للتدريب المسبق: (1) نمذجة اللغة المخفية: التنبؤ بالرموز المخفية باستخدام استراتيجيتين جديدتين للإخفاء؛ (2) نمذجة الموضع المخفي: التنبؤ بمواقع ثنائية الأبعاد مخفية لتحسين تعلم تمثيل التخطيط. يمكن لـ LayoutMask تعزيز التفاعلات بين أصناف النص والتخطيط في نموذج موحد وإنتاج تمثيلات متعددة الأصناف مرنة وقوية لمهمات التنقيط اللاحق. تظهر النتائج التجريبية أن الطريقة المقترحة لدينا يمكنها تحقيق أفضل النتائج الحالية في مجموعة واسعة من مشاكل فهم الوثائق الغنية بصرياً، بما في ذلك فهم الاستمارات، فهم إيصالات الدفع، تصنيف صور الوثائق.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp