HyperAIHyperAI
منذ 2 أشهر

LayoutMask: تعزيز التفاعل بين النص والتصميم في التدريب متعدد الأوضاع لفهم الوثائق

Yi Tu; Ya Guo; Huan Chen; Jinyang Tang
LayoutMask: تعزيز التفاعل بين النص والتصميم في التدريب متعدد الأوضاع لفهم الوثائق
الملخص

فهم الوثائق الغنية بصرياً (VrDU) جذب اهتمامًا بحثيًا كبيرًا على مدى السنوات الماضية. أدت النماذج المدربة مسبقًا على عدد كبير من صور الوثائق باستخدام نوى مستندة إلى الترانسفورمر إلى تحسينات كبيرة في الأداء في هذا المجال. التحدي الرئيسي هو كيفية دمج الأصناف المختلفة (النص، التخطيط، والصورة) للوثائق في نموذج موحد مع مهام تدريبية مسبقة مختلفة. يركز هذا البحث على تحسين التفاعلات بين النص والتخطيط ويقترح نموذج تدريب متعدد الأصناف جديد، وهو LayoutMask. يستخدم LayoutMask الموضع المحلي ذو البعد الواحد بدلاً من الموضع العالمي ذو البعد الواحد كمدخل للتخطيط ولديه هدفان للتدريب المسبق: (1) نمذجة اللغة المخفية: التنبؤ بالرموز المخفية باستخدام استراتيجيتين جديدتين للإخفاء؛ (2) نمذجة الموضع المخفي: التنبؤ بمواقع ثنائية الأبعاد مخفية لتحسين تعلم تمثيل التخطيط. يمكن لـ LayoutMask تعزيز التفاعلات بين أصناف النص والتخطيط في نموذج موحد وإنتاج تمثيلات متعددة الأصناف مرنة وقوية لمهمات التنقيط اللاحق. تظهر النتائج التجريبية أن الطريقة المقترحة لدينا يمكنها تحقيق أفضل النتائج الحالية في مجموعة واسعة من مشاكل فهم الوثائق الغنية بصرياً، بما في ذلك فهم الاستمارات، فهم إيصالات الدفع، تصنيف صور الوثائق.

LayoutMask: تعزيز التفاعل بين النص والتصميم في التدريب متعدد الأوضاع لفهم الوثائق | أحدث الأوراق البحثية | HyperAI