HyperAIHyperAI

Command Palette

Search for a command to run...

GlobalDoc: إطار متعدد الوسائط بصري-لغوي للبحث والتصنيف في صور المستندات الواقعية

Souhail Bakkali Sanket Biswas Zuheng Ming Mickaël Coustaty Marçal Rusiñol Oriol Ramos Terrades Josep Lladós

الملخص

تقدّم فهم المستندات البصرية (VDU) بسرعة مع تطور النماذج اللغوية متعددة الوسائط القوية. ومع ذلك، تتطلب هذه النماذج عادةً كميات كبيرة من بيانات التدريب المسبقة للمستندات لتعلم التمثيلات المتوسطة، وغالبًا ما تعاني من انخفاض كبير في الأداء في البيئات الصناعية الحقيقية عبر الإنترنت. إحدى المشكلات الرئيسية هي اعتمادها الكبير على محركات OCR لاستخراج المعلومات المكانية المحلية داخل صفحات المستندات، مما يحد من قدرة النماذج على اكتساب المعلومات الشاملة ويُضعف قدرتها على التعميم والمرونة والمتانة. في هذه الورقة، نقدّم GlobalDoc، وهي بنية قائمة على المحولات عبر الوسائط، تم تدريبها مسبقًا بطريقة ذاتية التعلم باستخدام ثلاث مهام وهمية مبتكرة. يُحسّن GlobalDoc تعلّم مفاهيم معنوية أكثر غنىً من خلال دمج التمثيلات اللغوية والبصرية، مما يؤدي إلى نماذج أكثر قابلية للنقل. ولضمان تقييم مناسب، نقترح أيضًا مهامين جديدين في مستوى المستندات ضمن مهام VDU، وهما تصنيف صور المستندات بعينة قليلة (DIC) واسترجاع صور المستندات بناءً على المحتوى (DIR)، المصمّمتين لمحاكاة السيناريوهات الصناعية بشكل أقرب. تم إجراء تجارب واسعة النطاق لإثبات فعالية GlobalDoc في البيئات العملية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
GlobalDoc: إطار متعدد الوسائط بصري-لغوي للبحث والتصنيف في صور المستندات الواقعية | مستندات | HyperAI