Command Palette
Search for a command to run...
オンラインチュートリアル | 華中科技大学と小紅書hi研究室によるオープンソースのdots.mocrは、文書構造を完璧に復元し、グラフィックをSVGに変換できる最先端のOCRモデルです。

従来のOCRは、複雑な図表や表、多言語コンテンツを含む大規模な文書を扱う際に、しばしば不十分な結果に終わります。これは主に、OCRの中核機能がテキスト認識に重点を置いており、図表、数式、UIレイアウトなどの複雑な視覚要素を単純に画像として切り取ってしまうため、文書構造が破壊され、意味的な関連性が失われ、高品質な情報抽出や再構築のニーズを満たすことが困難になるためです。
これに対し、華中科技大学と小紅樹氏のhi研究室は、文書内のテキスト、グラフ、表などのあらゆる視覚要素を統一された構造化データに解析し、グラフィックを直接編集可能なSVGコードに変換できるdots.mocrを共同でオープンソース化しました。これにより、文書理解の深度と幅が大幅に向上するだけでなく、複雑な文書の自動処理において業界をリードするレベルを達成しました。
現在、HyperAIの公式サイト(hyper.ai)のチュートリアルセクションでは、「dots.mocrマルチモーダル文書解析チュートリアル」が公開されており、ユーザーはオンラインでこの新しいマルチモーダル文書解析のパラダイムを体験できるようになっています。
オンラインランニングリンク:
デモ実行中
1. hyper.ai のホームページにアクセスしたら、「チュートリアル」ページを選択するか、「その他のチュートリアルを見る」をクリックして「…」を選択します。dots.mocr マルチモーダル文書解析チュートリアル「このチュートリアルをオンラインで実行する」をクリックしてください。


2. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。
注:ページの右上で言語を切り替えることができます。現在、中国語と英語が利用可能です。このチュートリアルでは英語で手順を説明します。

3. 「NVIDIA GeForce RTX 5090」と「PyTorch」のイメージを選択し、必要に応じて「Pay As You Go」または「Daily Plan/Weekly Plan/Monthly Plan」を選択し、「ジョブ実行を続行」をクリックします。
HyperAI は新規ユーザーに登録特典を提供しています。わずか $1 で、RTX 5090 のコンピューティング パワーを 20 時間利用できます (元の価格は $7)。リソースは永続的に有効です。


4. リソースが割り当てられるのを待ちます。ステータスが「実行中」に変わったら、「ワークスペースを開く」をクリックしてJupyterワークスペースに入ります。

効果実証
1. ページがリダイレクトされたら、左側の README ページをクリックし、上部の [実行] をクリックします。


2. プロセスが完了したら、右側の API アドレスをクリックしてデモ ページに移動します。


実績表示



チュートリアルのリンク:https://go.hyper.ai/tx8FW








