HyperAI超神経

2.6kの星を獲得したMonkeyOCR-3Bは、英語文書解析タスクで72Bモデルを上回り、SOTAパフォーマンスに到達しました。

特色图像

今日、OCR(光学文字認識)技術はもはやテキスト認識に限定されず、より複雑な文書解析システムへと徐々に進化しています。当初の単純な文字抽出から、近年登場したマルチモーダルな大規模モデルに至るまで、OCR は、レイアウト理解、意味認識、構造復元などのタスクに統合されており、文書認識、字幕認識、物流分類、文献検索などの分野で広く使用されています。豊富なアプリケーション シナリオでは、モデルに対してより厳しい要件も課されます。

例えば、従来のOCRモデルの多くはモジュール設計を採用しており、文書解析を複数の細分化されたサブタスクに分解する必要があり、効率が悪く、均一に最適化することが困難です。エンドツーエンドの大規模モデルは強力ですが、リソース要件が非常に高く、普遍的に実装することが困難です。テキスト、表、数式、埋め込みグラフィックなど、複数の要素で構成される複雑な文書は、依然として精度にとって「大きなダメージ」となります。

これを考慮して、華中科技大学とKingsoft Officeは共同で、MonkeyOCRと呼ばれる文書解析モデルを発表しました。非構造化文書コンテンツを効率的に構造化情報に変換できます。SRRパラダイムでは、文書解析は「どこ(構造)」「何を(認識)」「どのように整理するか(関係)」という3つの基本的な質問に抽象化されます。これらはそれぞれ、レイアウト分析、コンテンツ認識、論理ソートに対応します。この明確なタスク分解により、精度と速度のバランスが実現されます。精度を損なうことなく、効率的でスケーラブルな処理をサポートします。

モデルに十分なデータサポートを提供するために、研究チームは MonkeyDoc と呼ばれるデータセットを構築しました。これはこれまでで最も包括的なドキュメント解析データセットであり、390 万のインスタンスを含み、さまざまなドキュメント タイプ (メモ、PPT、雑誌、テスト用紙など) をカバーしています。同時に、さまざまな構造ブロック(表、画像、テキスト、数式など)も詳細にマークされます。

研究チームの実験結果によると、MonkeyOCR は数式や表などを含む複雑な文書を処理する際に優れたパフォーマンスを発揮します。数式解析タスクと表解析タスクのパフォーマンスはそれぞれ 15.0% と 8.6% 向上しました。また、複数ページのドキュメント処理速度も他のモデルをはるかに上回り、1秒あたり0.84ページに達します。

特筆すべきは、英語文書解析タスクにおいて、3Bパラメータモデルが主流の72Bモデルを上回り、平均性能がSOTAレベルに達したことです。MonkeyOCRはリリースからまだ1か月も経っていませんが、GitHubのスター数は2.6千に達しています。

「MonkeyOCR: 構造-認識-関係のトリプルパラダイムに基づく文書解析」が、HyperAI Super Neural 公式サイト (hyper.ai) の「チュートリアル」セクションで公開されました。ぜひご体験ください⬇️

チュートリアルのリンク:

https://go.hyper.ai/Llixk

デモの実行

1. hyper.ai ホームページにアクセス後、「チュートリアル」ページを選択し、「MonkeyOCR: 構造認識関係トリプルパラダイムに基づくドキュメント解析」を選択して、「このチュートリアルをオンラインで実行」をクリックします。

2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。

3. 「NVIDIA GeForce RTX 4090」と「PyTorch」のイメージを選択します。 OpenBayes プラットフォームは 4 つの課金方法を提供します。ニーズに応じて、「従量制」または「日次/週次/月次」を選択できます。 「続行」をクリックします。新規ユーザーは、以下の招待リンクを使用して登録すると、4 時間の RTX 4090 + 5 時間の CPU フリー時間を獲得できます。

HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. リソースが割り当てられるのを待ちます。最初のクローン作成プロセスには約 2 分かかります。ステータスが「実行中」に変わったら、「API アドレス」の横にあるジャンプ矢印をクリックしてデモ ページに移動します。 APIアドレスアクセス機能を使用する前に、ユーザーは実名認証を完了する必要がありますのでご注意ください。

効果実証

PDFまたは画像をアップロードし、「解析」をクリックして解析します。「チャット」モードを選択した場合は、「プロンプトを選択」でプロンプトを選択する必要があります。

出力結果は「結果表示」に表示されます。「PDFレイアウトをダウンロード/Markdownをダウンロード」をクリックすると、PDF/Markdown形式のドキュメントがローカルコンピュータにダウンロードされます。

上記は今回の問題に対する推奨チュートリアルです。ぜひお試しください⬇️

チュートリアルのリンク:

https://go.hyper.ai/Llixk