HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة الرؤية المتранسформر لتحليل تخطيط الوثيقة

Cheng Da Chuwei Luo Qi Zheng Cong Yao

الملخص

أثبتت نماذج التعلم المسبق للوثائق والنماذج القائمة على الشبكة أنها فعالة للغاية في مهام مختلفة في الذكاء الاصطناعي للوثائق (Document AI). ومع ذلك، فيما يتعلق بتحليل تخطيط الوثيقة (DLA)، تعتمد النماذج المسبقة الموجودة حتى تلك التي تم تعلمها بشكل متعدد الوسائط عادةً على الخصائص النصية أو البصرية فقط. أما النماذج القائمة على الشبكة لـ DLA فهي متعددة الوسائط ولكنها تتجاهل إلى حد كبير تأثير التعلم المسبق. للاستفادة الكاملة من المعلومات المتعددة الوسائط واستغلال تقنيات التعلم المسبق لتعلم تمثيل أفضل لـ DLA، نقدم في هذا البحث VGT، وهو محول شبكي ثنائي التيار (Two-stream Vision Grid Transformer)، حيث تم اقتراح وتعلم GiT (Grid Transformer) بشكل مسبق لتحقيق فهم دلالي على مستوى الرموز ثنائية الأبعاد وعلى مستوى المقاطع. بالإضافة إلى ذلك، تم جمع وإصدار مجموعة بيانات جديدة باسم D4^44LA، وهي تعتبر حتى الآن أكثر مجموعة بيانات متنوعة ومفصلة تم إنشاؤها يدويًا لتقييم أداء تحليل تخطيط الوثيقة. أظهرت نتائج التجارب أن النموذج المقترح VGT حقق نتائجًا جديدة رائدة في مهام TLA، مثل PubLayNet (95.7%96.2%95.7\% \rightarrow 96.2\%95.7%96.2%)، DocBank (79.6%84.1%79.6\% \rightarrow 84.1\%79.6%84.1%)، وD4^44LA (67.7%68.8%67.7\% \rightarrow 68.8\%67.7%68.8%). سيتم توفير الكود والنماذج وكذلك مجموعة البيانات D4^44LA بشكل عام عبر الرابط: ~\url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp