HyperAIHyperAI

Command Palette

Search for a command to run...

GeoLayoutLM: التدريب الهندسي لاستخراج المعلومات البصرية

Chuwei Luo* Changxu Cheng* Qi Zheng Cong Yao

الملخص

استخراج المعلومات البصرية (VIE) يلعب دورًا مهمًا في ذكاء الوثائق. بشكل عام، يتم تقسيمه إلى مهامين رئيسيين: التعرف على الكيانات الدلالية (SER) واستخراج العلاقات (RE). مؤخرًا، حققت النماذج المدربة مسبقًا للوثائق تقدمًا كبيرًا في VIE، خاصةً في SER. ومع ذلك، فإن معظم النماذج الحالية تتعلم التمثيل الهندسي بطريقة ضمنية، والتي تم العثور على أنها غير كافية لـ RE نظرًا لأهمية المعلومات الهندسية بشكل خاص لهذه المهمة. بالإضافة إلى ذلك، نكشف عن عامل آخر يحد من أداء RE وهو الفجوة الهدف بين مرحلة التدريب المسبق ومرحلة التعديل الدقيق لـ RE. لمعالجة هذه القضايا، نقترح في هذا البحث إطارًا متعدد الأوضاع يُسمى GeoLayoutLM للاستخراج البصري للمعلومات.يقوم GeoLayoutLM بتمثيل العلاقات الهندسية بشكل صريح خلال التدريب المسبق، والذي نطلق عليه التدريب الهندسي المسبق. يتم تحقيق التدريب الهندسي المسبق من خلال ثلاث مهام تدريب مسبق مصممة خصيصًا لتتعلق بالهندسة. بالإضافة إلى ذلك، تم تصميم رؤوس علاقات جديدة بعناية لتغنى وتزيد من تمثيل الخصائص، حيث يتم تدريبها مسبقًا بواسطة مهام التدريب الهندسي المسبق وتعديلها بدقة لـ RE.وفقًا للتجارب الواسعة التي أجريت على مقاييس VIE القياسية، حقق GeoLayoutLM درجات تنافسية للغاية في مهمة SER وأظهر تفوقًا واضحًا على أفضل التقنيات السابقة في RE (مثل زيادة دقة F1 لـ RE على مجموعة بيانات FUNSD من 80.35٪ إلى 89.45٪). الرمز والنماذج متاحة للعامة على الرابط:https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/GeoLayoutLM


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp