HyperAIHyperAI
منذ 2 أشهر

ERNIE-Layout: تدريب مُعزز بالمعرفة البصرية لفهم الوثائق الغنية بصرياً

Qiming Peng; Yinxu Pan; Wenjin Wang; Bin Luo; Zhenyu Zhang; Zhengjie Huang; Teng Hu; Weichong Yin; Yongfeng Chen; Yin Zhang; Shikun Feng; Yu Sun; Hao Tian; Hua Wu; Haifeng Wang
ERNIE-Layout: تدريب مُعزز بالمعرفة البصرية لفهم الوثائق الغنية بصرياً
الملخص

شهدت السنوات الأخيرة ارتفاعًا ونجاحًا في تقنيات التدريب المسبق لفهم الوثائق الغنية بصريًا. ومع ذلك، فإن معظم الطرق الحالية تفتقر إلى التنقيب المنظم والاستفادة من المعرفة المرتكزة على التخطيط (layout)، مما يؤدي إلى أداء غير مثالي. في هذا البحث، نقترح ERNIE-Layout، حل جديد للتدريب المسبق على الوثائق يعزز المعرفة بالتخطيط في جميع مراحل العملية، بهدف تعلم تمثيلات أفضل تجمع بين الخصائص النصية والتخطيطية والبصرية. بشكل خاص، نعيد ترتيب المتسلسلات الدخلية في مرحلة التسلسل (serialization)، ثم نقدم مهمة تدريب مسبقة ذات صلة وهي التنبؤ بترتيب القراءة لتعلم الترتيب الصحيح لقراءة الوثائق. لتحسين وعي النموذج بالتخطيط، قمنا بدمج انتباه فك الارتباط ذو الوعي المكاني (spatial-aware disentangled attention) في المتحول متعدد الأوضاع (multi-modal transformer) ومهمة التنبؤ بالمناطق المستبدلة (replaced regions prediction) في مرحلة التدريب المسبق. تظهر النتائج التجريبية أن ERNIE-Layout حقق أداءً متفوقًا في مجموعة متنوعة من المهام الثانوية، وأقام معايير جديدة لأفضل الأداء في استخراج المعلومات الرئيسية، تصنيف الصور الوثائقية، وطرح أسئلة على الوثائق. الرمز البرمجي والنموذج متاحان للعامة على الرابط: http://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout.

ERNIE-Layout: تدريب مُعزز بالمعرفة البصرية لفهم الوثائق الغنية بصرياً | أحدث الأوراق البحثية | HyperAI