HyperAIHyperAI

Command Palette

Search for a command to run...

StrucTexTv2: التنبؤ البصري-النصي المقنع لتدريب صور الوثائق مسبقًا

Yuechen Yu†, Yulin Li†, Chengquan Zhang†, Xiaoqiang Zhang, Zengyuan Guo, Xiameng Qin, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang

الملخص

في هذا البحث، نقدم StrucTexTv2، إطار تدريب مسبق فعال للصور الوثائقية، من خلال تنفيذ التنبؤ البصري-النصي المقنّع. يتكون الإطار المقترح من مهمتين رئيسيتين للتدريب الذاتي: نمذجة الصورة المقنّعة ونمذجة اللغة المقنّعة، على أساس تقييد الصور على مستوى منطقة النص. تقوم الطريقة المقترحة بتقنين بعض المناطق البصرية بشكل عشوائي وفقًا لتنسيق صندوق الحدود لكلمات النص. أهداف مهام التدريب المسبق لدينا هي إعادة بناء بيكسلات المناطق البصرية المقنّعة والرموز المقنّعة المرتبطة بها في آن واحد. لذلك يمكن للمرمز الذي تم تدريبه مسبقًا التقاط المزيد من الدلالات النصية مقارنةً بنموذج الصورة المقنّع الذي يتنبأ عادةً بألواح الصورة المقنّعة. بالمقارنة مع طرق النمذجة متعددة الوسائط المقنّعة لفهم صور الوثائق التي تعتمد على كل من الوسائط البصرية والنصية، فإن StrucTexTv2 يُحدِّد إدخالًا بصريًا فقط ويتعامل محتملًا مع سيناريوهات تطبيقية أكثر دون الحاجة إلى معالجة ما قبل التعرف الضوئي على الأحرف (OCR). تُظهر التجارب الشاملة على مقاييس رئيسية لفهم صور الوثائق فعالية StrucTexTv2. فهو يحقق أداءً تنافسيًا أو حتى جديدًا في طليعة الأداء في مجموعة متنوعة من المهام اللاحقة مثل تصنيف الصور، تحليل التخطيط، التعرف على بنية الجداول، التعرف الضوئي على الأحرف في الوثائق (OCR)، واستخراج المعلومات تحت السيناريو النهائي-إلى-النهائي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp