الملخص

في هذا البحث، نقدم StrucTexTv2، إطار تدريب مسبق فعال للصور الوثائقية، من خلال تنفيذ التنبؤ البصري-النصي المقنّع. يتكون الإطار المقترح من مهمتين رئيسيتين للتدريب الذاتي: نمذجة الصورة المقنّعة ونمذجة اللغة المقنّعة، على أساس تقييد الصور على مستوى منطقة النص. تقوم الطريقة المقترحة بتقنين بعض المناطق البصرية بشكل عشوائي وفقًا لتنسيق صندوق الحدود لكلمات النص. أهداف مهام التدريب المسبق لدينا هي إعادة بناء بيكسلات المناطق البصرية المقنّعة والرموز المقنّعة المرتبطة بها في آن واحد. لذلك يمكن للمرمز الذي تم تدريبه مسبقًا التقاط المزيد من الدلالات النصية مقارنةً بنموذج الصورة المقنّع الذي يتنبأ عادةً بألواح الصورة المقنّعة. بالمقارنة مع طرق النمذجة متعددة الوسائط المقنّعة لفهم صور الوثائق التي تعتمد على كل من الوسائط البصرية والنصية، فإن StrucTexTv2 يُحدِّد إدخالًا بصريًا فقط ويتعامل محتملًا مع سيناريوهات تطبيقية أكثر دون الحاجة إلى معالجة ما قبل التعرف الضوئي على الأحرف (OCR). تُظهر التجارب الشاملة على مقاييس رئيسية لفهم صور الوثائق فعالية StrucTexTv2. فهو يحقق أداءً تنافسيًا أو حتى جديدًا في طليعة الأداء في مجموعة متنوعة من المهام اللاحقة مثل تصنيف الصور، تحليل التخطيط، التعرف على بنية الجداول، التعرف الضوئي على الأحرف في الوثائق (OCR)، واستخراج المعلومات تحت السيناريو النهائي-إلى-النهائي.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

StrucTexTv2: التنبؤ البصري-النصي المقنع لتدريب صور الوثائق مسبقًا

Yuechen Yu†, Yulin Li†, Chengquan Zhang†, Xiaoqiang Zhang, Zengyuan Guo, Xiameng Qin, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

StrucTexTv2: التنبؤ البصري-النصي المقنع لتدريب صور الوثائق مسبقًا

Yuechen Yu†, Yulin Li†, Chengquan Zhang†, Xiaoqiang Zhang, Zengyuan Guo, Xiameng Qin, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

StrucTexTv2: التنبؤ البصري-النصي المقنع لتدريب صور الوثائق مسبقًا

Yuechen Yu†, Yulin Li†, Chengquan Zhang†, Xiaoqiang Zhang, Zengyuan Guo, Xiameng Qin, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters