6ヶ月前

アプローチ／フレームワーク

コンピュータビジョン

Minghao Li Tengchao Lv Jingye Chen Lei Cui Yijuan Lu Dinei Florencio Cha Zhang Zhoujun Li Furu Wei

概要

ドキュメントのデジタル化において、テキスト認識は長年にわたり研究が続けられている課題である。従来のアプローチは、画像理解に主にCNN（畳み込みニューラルネットワーク）を、文字レベルのテキスト生成にRNN（再帰型ニューラルネットワーク）を用いることが一般的である。さらに、全体の認識精度を向上させるために、後処理段階として別途言語モデルを導入するケースが多い。本論文では、事前学習済みの画像TransformerモデルとテキストTransformerモデルを用いたエンドツーエンドのテキスト認識手法、すなわちTrOCR（Text Recognition with OCR Transformer）を提案する。TrOCRは、画像理解とワードピースレベルのテキスト生成の両方において、Transformerアーキテクチャを統合的に活用する。このモデルは構造が単純でありながら効果的であり、大規模な合成データを用いた事前学習と、人手でラベル付けされたデータセットを用いた微調整が可能である。実験の結果、印刷体、手書き、シーン内テキスト認識の各タスクにおいて、現在の最先端モデルを上回る性能を示した。TrOCRのモデルおよびコードは、公開されており、\url{https://aka.ms/trocr} にて入手可能である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

アプローチ／フレームワーク

コンピュータビジョン

Minghao Li Tengchao Lv Jingye Chen Lei Cui Yijuan Lu Dinei Florencio Cha Zhang Zhoujun Li Furu Wei

概要

ドキュメントのデジタル化において、テキスト認識は長年にわたり研究が続けられている課題である。従来のアプローチは、画像理解に主にCNN（畳み込みニューラルネットワーク）を、文字レベルのテキスト生成にRNN（再帰型ニューラルネットワーク）を用いることが一般的である。さらに、全体の認識精度を向上させるために、後処理段階として別途言語モデルを導入するケースが多い。本論文では、事前学習済みの画像TransformerモデルとテキストTransformerモデルを用いたエンドツーエンドのテキスト認識手法、すなわちTrOCR（Text Recognition with OCR Transformer）を提案する。TrOCRは、画像理解とワードピースレベルのテキスト生成の両方において、Transformerアーキテクチャを統合的に活用する。このモデルは構造が単純でありながら効果的であり、大規模な合成データを用いた事前学習と、人手でラベル付けされたデータセットを用いた微調整が可能である。実験の結果、印刷体、手書き、シーン内テキスト認識の各タスクにおいて、現在の最先端モデルを上回る性能を示した。TrOCRのモデルおよびコードは、公開されており、\url{https://aka.ms/trocr} にて入手可能である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています