ديت: التدريب الذاتي المسبوق لتحويل صور الوثائق

حققت نماذج Image Transformer تقدماً ملحوظاً في فهم الصور الطبيعية، سواء باستخدام تقنيات التدريب المشرف (مثل ViT و DeiT) أو التدريب الذاتي المشرف (مثل BEiT و MAE). في هذا البحث، نقترح \textbf{DiT}، وهو نموذج \textbf{D}ocument \textbf{I}mage \textbf{T}ransformer مُدرب ذاتياً يستخدم صور النصوص غير المصنفة على نطاق كبير لأداء مهام الذكاء الاصطناعي للوثائق، وهي مهمة ضرورية بسبب عدم وجود نماذج مشرفة مكافئة نتيجة لنقص الصور المصنفة يدوياً للوثائق. نستفيد من DiT كشبكة أساسية في مجموعة متنوعة من مهام الذكاء الاصطناعي المرتكزة على الرؤية، بما في ذلك تصنيف صور الوثائق، تحليل تخطيط الوثيقة، اكتشاف الجداول وكذلك اكتشاف النصوص لتقنيات التعرف الضوئي على الحروف (OCR). أظهرت نتائج التجارب أن النموذج DiT المُدرب ذاتياً حقق أفضل النتائج المعروفة حتى الآن在这些下游任务中,例如: تصنيف صور الوثائق (91.11\% $\rightarrow$ 92.69\%)، تحليل تخطيط الوثيقة (91.0\% $\rightarrow$ 94.9\%)، اكتشاف الجداول (94.23\% $\rightarrow$ 96.55\%) واكتشاف النصوص لتقنيات التعرف الضوئي على الحروف (OCR) (93.07\% $\rightarrow$ 94.29\%). الكود والنماذج المُدربة متاحة بشكل عام على الرابط \url{https://aka.ms/msdit}.