HyperAIHyperAI
منذ 2 أشهر

نمذجة ترتيب قراءة التخطيط كعلاقات ترتيبية لفهم الوثائق الغنية بصرياً

Chong Zhang; Yi Tu; Yixi Zhao; Chenshu Yuan; Huan Chen; Yue Zhang; Mingxu Chai; Ya Guo; Huijia Zhu; Qi Zhang; Tao Gui
نمذجة ترتيب قراءة التخطيط كعلاقات ترتيبية لفهم الوثائق الغنية بصرياً
الملخص

نمذجة واستغلال ترتيب القراءة في التخطيط في الوثائق الغنية بصرياً (VrDs) أمر حاسم في ذكاء الوثائق حيث أنها تلتقط الدلالات الهيكلية الغنية داخل الوثائق. ومع ذلك، فإن الأعمال السابقة عادة ما صاغت ترتيب القراءة في التخطيط كتبديل للعناصر التخطيطية، أي سلسلة تحتوي على جميع العناصر التخطيطية. نحن ندعي أن هذا الصياغة لا ينقل بشكل كافٍ معلومات ترتيب القراءة الكاملة في التخطيط، مما قد يؤدي إلى انخفاض الأداء في المهام اللاحقة لـ VrDs. لمعالجة هذه المشكلة، نقترح نمذجة ترتيب القراءة في التخطيط كعلاقات ترتيب على مجموعة العناصر التخطيطية، والتي لديها قدرة تعبيرية كافية لمعلومات ترتيب القراءة الكاملة.لتمكين التقييم العملي على الأساليب التي تستهدف الشكل المحسن من تنبؤات ترتيب القراءة (ROP)، أنشأنا مجموعة بيانات مرجعية شاملة تتضمن شرحًا لمعلومات ترتيب القراءة كعلاقات بين العناصر التخطيطية، بالإضافة إلى طريقة مستندة إلى استخراج العلاقات التي تتفوق على الأساليب السابقة. علاوة على ذلك، لتسليط الضوء على الفوائد العملية لإدخال الشكل المحسن من علاقات ترتيب القراءة، اقترحنا خط أنابيب يعزز أداء النماذج في أي مهمة VrD تعسفية من خلال إدخال معلومات إضافية عن علاقات ترتيب القراءة. النتائج الشاملة تظهر أن الخط الأنابيب يفيد عموماً المهام اللاحقة لـ VrDs: (1) عند استخدام معلومات علاقات ترتيب القراءة، فإن النماذج المستهدفة تعزز تحقيق أفضل النتائج الحالية (SOTA) في كلتا ضبطتي المهمتين المستهدفتين من مجموعة البيانات؛ (2) عند استخدام المعلومات الزائفة لترتيب القراءة التي تم إنشاؤها بواسطة نموذج ROP المقترح، فقد تم تعزيز أداء النماذج عبر جميع ثلاثة نماذج وثمانية ضبطات للمهام متعددة المجالات VrD-IE/QA دون وجود تنظيم مستهدف.

نمذجة ترتيب قراءة التخطيط كعلاقات ترتيبية لفهم الوثائق الغنية بصرياً | أحدث الأوراق البحثية | HyperAI