Command Palette
Search for a command to run...
オンラインチュートリアル | 構造化ドキュメントへの依存を打破し、dots.ocr は 17 億のパラメータに基づいて数百の言語で最先端の OCR パフォーマンスを実現します。

最近、dots.ocrと呼ばれるモデルが、独自の軽量設計と正確なテキスト抽出機能により、OCR技術の分野で大きな話題になっています。dots.ocrは、Xiaohongshuのhi labによって2025年8月にリリースされた多言語ドキュメントレイアウト解析モデルです。このモデルは、レイアウト検出とコンテンツ認識を統一的に実行できる 17 億パラメータの視覚言語モデル (VLM) に基づいています。ぼやけたスキャン、傾いた携帯電話のスナップショット、低解像度のスクリーンショットなど、dots.ocr は、適応型ノイズ低減アルゴリズムと動的セグメンテーション テクノロジーにより、断片化されたテキスト情報を正確にキャプチャできます。モデルサイズが2B未満のマイクロアーキテクチャにより、産業機器、モバイル端末、さらには組み込みシステムでもミリ秒レベルのリアルタイムテキスト認識を実現し、クラウド依存から完全に脱却できます。。
さらに注目すべきは、dots.ocrが従来のOCRの構造化文書への依存を打破していることです。マルチスケールの特徴量融合メカニズムと文脈的意味エラー訂正を統合することで、このモデルは手書きの雑な筆跡、密集した表形式データ、あるいは組版が混在するテキストを認識する際に、人間の読みに近い一貫性と精度を維持します。さらに、多言語ドキュメント処理に関しては、中国語や英語を含む100言語をサポートし、多言語ドキュメント内のテキストコンテンツやレイアウト要素を正確に識別して処理できます。多言語文書や複雑な言語環境を扱う場合でも、dots.ocrは安定した高精度な解析結果を提供します。OmniDocBenchなどのベンチマークテストにおいて、dots.ocrの数式認識性能は、Doubao-1.5やGemini2.5-Proといったより大規模なモデルに匹敵します。少数言語の解析において大きな優位性を示し、「小さくても正確」という目標を真に達成しています。
現在のところ、dots.ocr: 多言語文書解析モデルHyperAI公式サイトの「チュートリアル」セクションにアップロードされています。以下のリンクをクリックするだけで、ワンクリックでデプロイできます。
チュートリアルのリンク:
デモの実行
1. hyper.ai ホームページにアクセスしたら、「チュートリアル」ページを選択し、「dots.ocr: Multilingual Document Parsing Model」を選択して、「このチュートリアルをオンラインで実行」をクリックします。


2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。

3. 「NVIDIA GeForce RTX 4090」と「PyTorch」のイメージを選択し、ニーズに合わせて「Pay as you go」または「Daily/Weekly/Monthly Package」を選択し、「Continue」をクリックします。新規ユーザーは、以下の招待リンクから登録すると、RTX 4090 4時間分とCPUフリータイム5時間分がもらえます!
HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):
https://openbayes.com/console/signup?r=Ada0322_NR0n


4. リソースが割り当てられるまでお待ちください。最初のクローン作成プロセスには約3分かかります。ステータスが「実行中」に変わったら、「APIアドレス」の横にある矢印をクリックしてデモページに移動します。APIアドレスを使用する前に、実名認証を完了する必要がありますのでご注意ください。


効果実証
「解析」機能を例に、英語の文書をアップロードしたところ、次のような効果がありました。

表でも数式でも、モデルは次のものを非常にうまく認識できます。


以上が今回HyperAIがおすすめするチュートリアルです。ぜひ皆さんも体験してみてください!
チュートリアルのリンク:https://go.hyper.ai/49mZU
2023年から2024年にかけてのAI4S分野の高品質な論文と詳細な解釈記事をワンクリックで入手⬇️
