HyperAIHyperAI
منذ 2 أشهر

توحيد الرؤية والنص والتخطيط لمعالجة الوثائق الشاملة

Zineng Tang; Ziyi Yang; Guoxin Wang; Yuwei Fang; Yang Liu; Chenguang Zhu; Michael Zeng; Cha Zhang; Mohit Bansal
توحيد الرؤية والنص والتخطيط لمعالجة الوثائق الشاملة
الملخص

نقترح نموذج Universal Document Processing (UDOP)، وهو نموذج أساسي لذكاء المستندات يجمع بين النصوص والصور والتخطيطات مع تنسيقات مهام مختلفة، بما في ذلك فهم وإنشاء المستندات. يستخدم UDOP الارتباط المكاني بين المحتوى النصي وصورة المستند لنمذجة الصور والنصوص والتخطيطات بتمثيل موحد واحد. من خلال استخدام محول الرؤية-النص-التخطيط الجديد (Vision-Text-Layout Transformer)، يتم توحيد التدريب الأولي والمهام اللاحقة متعددة المجالات في مخطط إنشاء تسلسلي قائم على الإرشادات. يتم تدريب UDOP بشكل أولي على كوربوس مستندات غير مشمولة بالعلامات على نطاق كبير باستخدام أهداف ذاتية الإشراف مبتكرة وعلى بيانات مشمولة بالعلامات متنوعة. كما يتعلم UDOP إنشاء صور المستندات من النصوص والتخطيطات عبر إعادة بناء الصور المخفية. حسب أفضل علم لنا، هذه هي المرة الأولى في مجال ذكاء المستندات التي يحقق فيها نموذج واحد جودة عالية في تحرير المستندات العصبية وتخصيص المحتوى بشكل متزامن. طريقة عملنا تحدد الحالة المتقدمة في 8 مهام لذكاء المستندات، مثل فهم المستند والاستفسار عنه، عبر مجالات بيانات متنوعة مثل التقارير المالية والأوراق الأكاديمية والمواقع الإلكترونية. يحتل UDOP المركز الأول في لوحة تصنيف معيار فهم المستند.

توحيد الرؤية والنص والتخطيط لمعالجة الوثائق الشاملة | أحدث الأوراق البحثية | HyperAI