HyperAIHyperAI

Command Palette

Search for a command to run...

TrOCR:事前学習モデルを用いたTransformerベースの光学文字認識

Minghao Li Tengchao Lv Jingye Chen Lei Cui Yijuan Lu Dinei Florencio Cha Zhang Zhoujun Li Furu Wei

概要

ドキュメントのデジタル化において、テキスト認識は長年にわたり研究が続けられている課題である。従来のアプローチは、画像理解に主にCNN(畳み込みニューラルネットワーク)を、文字レベルのテキスト生成にRNN(再帰型ニューラルネットワーク)を用いることが一般的である。さらに、全体の認識精度を向上させるために、後処理段階として別途言語モデルを導入するケースが多い。本論文では、事前学習済みの画像TransformerモデルとテキストTransformerモデルを用いたエンドツーエンドのテキスト認識手法、すなわちTrOCR(Text Recognition with OCR Transformer)を提案する。TrOCRは、画像理解とワードピースレベルのテキスト生成の両方において、Transformerアーキテクチャを統合的に活用する。このモデルは構造が単純でありながら効果的であり、大規模な合成データを用いた事前学習と、人手でラベル付けされたデータセットを用いた微調整が可能である。実験の結果、印刷体、手書き、シーン内テキスト認識の各タスクにおいて、現在の最先端モデルを上回る性能を示した。TrOCRのモデルおよびコードは、公開されており、\url{https://aka.ms/trocr} にて入手可能である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています