HyperAI超神経

オンラインチュートリアル | コンシューマーグレードのグラフィックカードで動作可能か?軽量OCRFlux-3Bモデルが初めてインテリジェントな複雑なテキスト認識を実現

特色图像

PDF を変換するときに、数式、表、ページをまたがるテキストによってレイアウトが乱れることを心配する必要がなくなりました。

バッチドキュメント解析、構造化情報抽出、ページ間コンテンツマージとの互換性をサポート... ChatDOC チームは、マルチモーダル大規模言語モデルに基づくツールキットである OCRFlux-3B をリリースしました。これにより、PDF や画像をクリーンで読みやすいプレーンテキストの Markdown 形式に変換できます。

OCRFlux-3B はページレベルのテキスト変換機能を提供し、PDF 内のテキストや画像を Markdown 形式に正確に変換できます。このツールは、繰り返しヘッダー、行または列をまたぐ表、水平ページング、ネストされた構造などの複雑な表を処理できるだけでなく、論文内の複雑な数式を認識し、ページをまたぐ表や段落の結合もサポートします。複雑な複数段組みレイアウト、グラフィック、挿入要素があっても、テキストの自然な読み順は維持されます。PDFファイルを編集・検索可能なMarkdownテキストに変換することで、研究者はPDF文書から表や数式を素早く抽出できます。現在、OCRFlux-3B は、オープンソース OCR プロジェクトでこの機能を実現した最初のモデルです。

OCRFlux-3B は、Qwen2.5-VL-3B-Instruct マルチモーダル視覚言語モデルに基づいて微調整された軽量モデルであるため、コンシューマーグレードのグラフィック カード (GTX 3090 など) でも実行できます。

現在のところ、「OCRFlux-3B: インテリジェントテキスト認識ツールキット」HyperAI公式サイト(hyper.ai)のチュートリアルセクションが公開されました。ワンクリックでPDF文書、画像文書、そして複数のファイルを、検索可能なMarkdownテキストに変換するオンライン体験をお楽しみいただけます。ぜひお試しください!

チュートリアルのリンク:

https://go.hyper.ai/0K2OY

HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):

https://openbayes.com/console/signup?r=Ada0322_NR0n

デモの実行

1. hyper.ai ホームページにアクセス後、「チュートリアル」ページを選択し、「OCRFlux-3B: インテリジェントテキスト認識ツールキット」を選択して、「このチュートリアルをオンラインで実行」をクリックします。

2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。

3. 「NVIDIA GeForce RTX 4090」を選択してください。OpenBayesプラットフォームでは4つの課金方法をご用意しています。ニーズに合わせて「従量課金制」または「日単位/週単位/月単位」からお選びいただけます。「PyTorch」イメージを選択したら、「続行」をクリックしてください。新規ユーザーは、以下の招待リンクから登録すると、RTX 4090を4時間分とCPUフリータイム5時間分をプレゼントいたします。

HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. リソースが割り当てられるのを待ちます。最初のクローン作成プロセスには約 2 分かかります。ステータスが「実行中」に変わったら、「API アドレス」の横にあるジャンプ矢印をクリックしてデモ ページに移動します。 APIアドレスアクセス機能を使用する前に、ユーザーは実名認証を完了する必要がありますのでご注意ください。

効果実証

APIアドレスをクリックしてデモページに入り、モデルを体験してください。モデルページに入ったら、PDFドキュメント、画像ドキュメント、または複数のファイルをアップロードし、「処理」をクリックすると、対応するMarkdownテキストが生成されます。効果は以下のとおりです。

OCRFlux-3B は、論文に散在する表や数式も簡単に識別できます。

これは今回の号のおすすめチュートリアルです。ぜひ皆さんも試してみてください⬇️

チュートリアルのリンク:

https://go.hyper.ai/0K2OY