HyperAIHyperAI

Command Palette

Search for a command to run...

ديت: التدريب الذاتي المسبوق لتحويل صور الوثائق

Junlong Li Yiheng Xu Tengchao Lv Lei Cui Cha Zhang Furu Wei

الملخص

حققت نماذج Image Transformer تقدماً ملحوظاً في فهم الصور الطبيعية، سواء باستخدام تقنيات التدريب المشرف (مثل ViT و DeiT) أو التدريب الذاتي المشرف (مثل BEiT و MAE). في هذا البحث، نقترح \textbf{DiT}، وهو نموذج \textbf{D}ocument \textbf{I}mage \textbf{T}ransformer مُدرب ذاتياً يستخدم صور النصوص غير المصنفة على نطاق كبير لأداء مهام الذكاء الاصطناعي للوثائق، وهي مهمة ضرورية بسبب عدم وجود نماذج مشرفة مكافئة نتيجة لنقص الصور المصنفة يدوياً للوثائق. نستفيد من DiT كشبكة أساسية في مجموعة متنوعة من مهام الذكاء الاصطناعي المرتكزة على الرؤية، بما في ذلك تصنيف صور الوثائق، تحليل تخطيط الوثيقة، اكتشاف الجداول وكذلك اكتشاف النصوص لتقنيات التعرف الضوئي على الحروف (OCR). أظهرت نتائج التجارب أن النموذج DiT المُدرب ذاتياً حقق أفضل النتائج المعروفة حتى الآن在这些下游任务中,例如: تصنيف صور الوثائق (91.11% \rightarrow 92.69%)، تحليل تخطيط الوثيقة (91.0% \rightarrow 94.9%)، اكتشاف الجداول (94.23% \rightarrow 96.55%) واكتشاف النصوص لتقنيات التعرف الضوئي على الحروف (OCR) (93.07% \rightarrow 94.29%). الكود والنماذج المُدربة متاحة بشكل عام على الرابط \url{https://aka.ms/msdit}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp