HyperAIHyperAI
منذ 2 أشهر

PEneo: توحيد استخراج الخطوط، تصنيف الخطوط وربط الكيانات لاستخراج الأزواج الوثائقية من البداية إلى النهاية

Lin, Zening ; Wang, Jiapeng ; Li, Teng ; Liao, Wenhui ; Huang, Dayi ; Xiong, Longfei ; Jin, Lianwen
PEneo: توحيد استخراج الخطوط، تصنيف الخطوط وربط الكيانات لاستخراج الأزواج الوثائقية من البداية إلى النهاية
الملخص

استخراج الأزواج الوثائقية يهدف إلى تحديد الكيانات الرئيسية والقيم والعلاقات بينها من الوثائق الغنية بصرياً. تقسم معظم الطرق الحالية هذه المهمة إلى مهام منفصلة اثنين: التعرف على الكيانات الدلالية (SER) واستخراج العلاقات (RE). ومع ذلك، فإن مجرد ربط SER وRE بشكل متسلسل يمكن أن يؤدي إلى انتشار خطأ شديد، وهو غير قادر على التعامل مع حالات مثل الكيانات المتعددة الأسطر في السياقات الحقيقية. لحل هذه المشكلات، يقدم هذا البحث إطارًا جديدًا يُسمى PEneo (Pair Extraction new decoder option)، الذي يقوم باستخراج الأزواج الوثائقية في خط أنابيب موحد، يضم ثلاث مهام فرعية متزامنة: استخراج السطور، تجميع السطور، وربط الكيانات. هذا النهج يخفف مشكلة تراكم الأخطاء ويمكنه التعامل مع حالة الكيانات المتعددة الأسطر. علاوة على ذلك، لتقديم تقييم أفضل لأداء النموذج ولتسهيل البحث المستقبلي حول استخراج الأزواج، نقدم RFUND، وهو إصدار إعادة التحديد للبيانات الشائعة الاستخدام FUNSD وXFUND، مما يجعلها أكثر دقة وتغطية للمواقف الواقعية. أظهرت التجارب على مجموعة متنوعة من المقاييس تفوق PEneo على الأنابيب السابقة بفارق كبير (مثل زيادة بنسبة 19.89٪-22.91٪ في درجة F1 على RFUND-EN) عند الجمع بين مختلف الهياكل الأساسية مثل LiLT وLayoutLMv3، مما يدل على فعاليته وإطلاقه العام. يمكن الوصول إلى الرموز والملاحظات الجديدة عبر الرابط https://github.com/ZeningLin/PEneo.

PEneo: توحيد استخراج الخطوط، تصنيف الخطوط وربط الكيانات لاستخراج الأزواج الوثائقية من البداية إلى النهاية | أحدث الأوراق البحثية | HyperAI