従来の OCR を超えます! Google の最新成果である InkSight をワンクリックで導入: 手書きのテキストを正確に認識し、中国語と英語の両方で圧力をかける必要はありません

特色图像

かつては、学校に入学すると、まずペンを持つ正しい姿勢を学び、その後、基本的なアラビア数字とピンインから文字を学び、徐々に漢字や英語へと進んでいきました。多くの場合、その人の文体は、勢いと大胆さ、美しさと優雅さ、静けさなど、その人の性格と密接に関係しています。

現在、多くの場面でコンピューター、携帯電話、タブレットによる電子記録が急速に手書きに取って代わり、環境保護と炭素削減という一般的な流れの中で「ペーパーレス化」も着実に進んでいます。しかし、手書きのテキストは、学習ノート、一時的なインスピレーションや創造性など、依然として人々の日常生活の中で活躍しています。同時に、ほとんどの古い文書や資料も手書きで転写されており、電子形式に変換することで長期的に役立ちます。ストレージまたは即時取得。

この目的のためには、手書きテキストを正確に認識することが重要です。従来の光学式文字認識 (OCR) テクノロジは、背景が雑然としていたり手書きがぼやけている場合にはパフォーマンスが低下することが多く、その結果、認識精度が大幅に低下します。

最近、Google Research は、手書き文字を単にテキスト文書に転写する OCR とは異なる新しい結果 InkSight を発表しました。InkSight は、手書きドキュメント内のストロークのコレクションをキャプチャして、より自然な方法で手書きテキストを認識できます。

具体的には、研究者らは、手書きテキストの写真を撮影し、書き込みのストロークを抽出できると同時に、典型的な幾何学的構造への依存(つまり、画像内の勾配、輪郭、形状を使用して書き込みストロークを抽出する)から脱却できるレンダリング方法を提案しました。 )、 その代わり、訓練モデルは人間を模倣して「読み」と「書き」を理解し、前者は書かれた文字を認識し、後者は手書きに近いストロークを出力することができ、手書き文字を書き換えて学習し続けることで、文字の見た目や意味の理解を蓄積することができます。

今、HyperAI公式サイトのチュートリアルセクションでは「InkSight手書きテキストデジタル化デモ」を開始した。ワンクリックでクローンを作成し、オンラインで体験できます。あなたの「書」を電子化してみませんか~

チュートリアルのリンク:

https://go.hyper.ai/DR89z

デモの実行

1. hyper.ai にログインし、「チュートリアル」ページで「InkSight Digitize Handwriting Text Demo」を選択し、「このチュートリアルをオンラインで実行する」をクリックします。

2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。

3. 右下隅の「次へ: コンピューティング能力の選択」をクリックします。

4. ページがジャンプしたら、「NVIDIA GeForce RTX 4090」と「PyTorch」のイメージを選択し、必要に応じて「Pay as you go」または「Daily/weekly/monthly」を選択し、「次へ: レビュー」をクリックします。以下の招待リンクを使用してサインアップした新規ユーザーは、4 時間の RTX 4090 + 5 時間の CPU を無料で入手できます。

HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます): 

https://openbayes.com/console/signup?r=Ada0322_QZy7

5. すべてが正しいことを確認したら、「続行」をクリックし、最初のクローンが割り当てられるまで待ちます。ステータスが「実行中」に変わったら、「API アドレス」の横にあるジャンプ矢印をクリックしてデモ ページにジャンプします。APIアドレスアクセス機能を利用するには実名認証が必要となりますのでご注意ください。

モデルが大きすぎるため、コンテナが実行中と表示された後、API アドレスを開くまで 1 分ほど待つ必要があります。そうしないと、BadGateway が表示されます。

エフェクト表示

デモインターフェイスを開いた後、チュートリアルは「単語レベル推論」と「全ページ推論」の 2 つのモードに分かれています。注: 「単語翻訳」は、単一のテキストまたは単語の認識にのみ適用されます。

編集者は、中国語と英語の両方で正確に認識できる「全力を尽くして」と「フォレスト・ガンプ」の古典的なセリフを手書きして恥をさらしました。

単語の音訳
「フォレスト・ガンプ」の英語セリフを書き起こしました

私たちは「安定拡散チュートリアル交換グループ」を設立し、さまざまな技術的問題について話し合ったり、アプリケーションの効果を共有したりするためにグループに参加する友人を歓迎します~

以下の QR コードをスキャンして Neurostar WeChat (WeChat ID: Hyperai01) を追加し、「SD チュートリアル交換グループ」とコメントしてグループ チャットに参加します。