InkSight による手書きテキストのデジタル化デモ

インクサイト

1. チュートリアルの概要

InkSight は、Google Research が 2024 年に発表した革新的な人工知能テクノロジーです。特に手書きテキストの認識とデジタル化に使用されます。論文の結果は「」です。InkSight: 読み書きを学習することによるオフラインからオンラインへの手書き変換”。この技術の最大の利点は、人間の読み学習のプロセスを模倣して手書き文字を継続的に書き換えて学習し、文字の外観と意味の理解を蓄積する独自の学習方法にあります。従来の光学式文字認識 (OCR) テクノロジーと比較して、InkSight は、複雑な背景、ぼやけ、または低照度の条件で手書きテキストを処理する場合に、より高い認識精度を示します。

このチュートリアルには 2 つの関数が含まれています。

  • 単語レベルの音訳: この機能は、単語レベルの入力画像を単一の単語に変換し、InkSight を出力することをサポートします。
  • ページ全体の転写: この機能はページ全体レベルの変換をサポートしており、入力画像は書き込みページ全体にすることができ、書き込みページ全体を InkSight として出力できます。

InkSight の認識精度は非常に高く、人間は InkSight によって生成されたテキスト トレースを最大 87% の精度で読み取ることができ、トレース結果の 3 分の 2 以上が実際の手書きとほとんど区別できないことがわかっています。これは、InkSight が手書きテキストを認識できるだけでなく、非常に高い精度で手書きコンテンツを復元できることを意味します。これは、手書き記録を好むユーザーにとって大きな恩恵となります。

さらに、InkSight は文化遺産保護の分野でも大きな可能性を示しています。貴重な手書き文書を効果的にデジタル化して歴史研究を容易にすると同時に、デジタル化が進んでいない言語や文化を保護し継承することができます。

InkSight のテクノロジーは、従来の OCR テクノロジーを超えるだけでなく、手書き認識の分野に新たなブレークスルーをもたらします。ディープラーニングやニューラルネットワークなどの最新の機械学習テクノロジーを使用して、手書きテキスト認識をより柔軟かつ強力にします。このテクノロジーの発表により、手書き認識分野でさらなる革新と画期的な進歩を求める競争が始まる可能性があります。

2. 操作手順

コンテナーを起動した後、モデルをロードするまで約 5 秒待ちます。API アドレスをクリックして Web インターフェイスに入ります。

1. 単語の音訳

  • 単語レベルの推論を選択
  • 単一の単語の手書きをアップロードする
  • インクレンダリングをクリックします
  • レンダリング結果の表示

2. 全ページ文字起こし

  • 「フルページ推論」を選択します。
  • 手書きのページ全体をアップロードする
  • インクレンダリングをクリックします
  • レンダリング結果の表示

コミュニケーション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。