15日前

TrOCR:事前学習モデルを用いたTransformerベースの光学文字認識

Minghao Li, Tengchao Lv, Jingye Chen, Lei Cui, Yijuan Lu, Dinei Florencio, Cha Zhang, Zhoujun Li, Furu Wei
TrOCR:事前学習モデルを用いたTransformerベースの光学文字認識
要約

ドキュメントのデジタル化において、テキスト認識は長年にわたり研究が続けられている課題である。従来のアプローチは、画像理解に主にCNN(畳み込みニューラルネットワーク)を、文字レベルのテキスト生成にRNN(再帰型ニューラルネットワーク)を用いることが一般的である。さらに、全体の認識精度を向上させるために、後処理段階として別途言語モデルを導入するケースが多い。本論文では、事前学習済みの画像TransformerモデルとテキストTransformerモデルを用いたエンドツーエンドのテキスト認識手法、すなわちTrOCR(Text Recognition with OCR Transformer)を提案する。TrOCRは、画像理解とワードピースレベルのテキスト生成の両方において、Transformerアーキテクチャを統合的に活用する。このモデルは構造が単純でありながら効果的であり、大規模な合成データを用いた事前学習と、人手でラベル付けされたデータセットを用いた微調整が可能である。実験の結果、印刷体、手書き、シーン内テキスト認識の各タスクにおいて、現在の最先端モデルを上回る性能を示した。TrOCRのモデルおよびコードは、公開されており、\url{https://aka.ms/trocr} にて入手可能である。

TrOCR:事前学習モデルを用いたTransformerベースの光学文字認識 | 最新論文 | HyperAI超神経