2 个月前

DiT:文档图像Transformer的自监督预训练

Junlong Li; Yiheng Xu; Tengchao Lv; Lei Cui; Cha Zhang; Furu Wei
DiT:文档图像Transformer的自监督预训练
摘要

图像Transformer在自然图像理解方面最近取得了显著进展,无论是通过监督预训练技术(如ViT、DeiT等)还是自监督预训练技术(如BEiT、MAE等)。本文提出了一种新的自监督预训练模型\textbf{DiT},即\textbf{D}ocument \textbf{I}mage \textbf{T}ransformer模型,该模型利用大规模未标注文本图像进行文档AI任务的预训练。由于缺乏人工标注的文档图像,因此这种自监督预训练对于文档AI任务至关重要,因为从未有过相应的监督方法。我们在多种基于视觉的文档AI任务中使用DiT作为骨干网络,包括文档图像分类、文档布局分析、表格检测以及OCR的文字检测。实验结果表明,自监督预训练的DiT模型在这些下游任务上达到了新的最先进水平,例如:文档图像分类(从91.11%提升至92.69%)、文档布局分析(从91.0%提升至94.9%)、表格检测(从94.23%提升至96.55%)和OCR文字检测(从93.07%提升至94.29%)。代码和预训练模型已公开发布于\url{https://aka.ms/msdit}。