2 个月前

DiT：文档图像Transformer的自监督预训练

Junlong Li; Yiheng Xu; Tengchao Lv; Lei Cui; Cha Zhang; Furu Wei

摘要

图像Transformer在自然图像理解方面最近取得了显著进展，无论是通过监督预训练技术（如ViT、DeiT等）还是自监督预训练技术（如BEiT、MAE等）。本文提出了一种新的自监督预训练模型\textbf{DiT}，即\textbf{D}ocument \textbf{I}mage \textbf{T}ransformer模型，该模型利用大规模未标注文本图像进行文档AI任务的预训练。由于缺乏人工标注的文档图像，因此这种自监督预训练对于文档AI任务至关重要，因为从未有过相应的监督方法。我们在多种基于视觉的文档AI任务中使用DiT作为骨干网络，包括文档图像分类、文档布局分析、表格检测以及OCR的文字检测。实验结果表明，自监督预训练的DiT模型在这些下游任务上达到了新的最先进水平，例如：文档图像分类（从91.11%提升至92.69%）、文档布局分析（从91.0%提升至94.9%）、表格检测（从94.23%提升至96.55%）和OCR文字检测（从93.07%提升至94.29%）。代码和预训练模型已公开发布于\url{https://aka.ms/msdit}。