日付

2年前

サイズ

905.81 MB

公開URL

タグ

LaTeX OCR データセットは、光学式文字認識 (OCR) の分野における複雑な数式認識問題に焦点を当てたデータセットです。 LaTeX OCR データセットには複数の構成が含まれており、それぞれに異なる特性とデータ分割が含まれています。たとえば、「フル」構成には約 100,000 のタイポグラフィサンプルが含まれていますが、「synthetic_handwrite」構成には、タイポグラフィの公式に基づいた手書きフォントを使用して合成された 100,000 の手書きサンプルが含まれています。このウェアハウスには 5 つのデータセットがあります。

small これは、テストに使用される 110 サンプルの小さなデータセットです。
full 印刷物で約 100k の完全なデータセットです。実際、サンプル数は 100k よりわずかに少ないですが、これは、LaTeX の抽象構文ツリーを使用して、レンダリングできない多くの LaTeX を排除しているためです。
synthetic_handwrite は、以下に基づく完全な手書き 100k データセットです。 full 手書きフォントを使用して合成されたの数式は、人間が紙に手書きしたものと考えることができます。上記と同じ理由で、実際のサンプル数は 100k よりわずかに少なくなります。
human_handwrite これは、より小さい手書きデータセットであり、電子画面上の人間の手書きとより一貫性があります。主にから CROHME 。 LaTeX の抽象構文ツリーを使用して検証しました。
human_handwrite_print からです human_handwrite 印刷されたデータセット、式部分、および human_handwrite 同様に、絵の部分もLaTeXを使った数式から描画されます。 LaTeX OCR データセットデータセットは、次のような複数のソースから取得されます。 https://zenodo.org/record/56198#.V2p0KTXT6eA そして https://www.isical.ac.in/~crohme/ 収集されたデータおよび自己構築されたデータ。特に複雑な数学記号や数式を処理する場合に、OCR モデルのトレーニングと評価に使用できます。学術文書のデジタル化、オンライン教育、科学研究アシスタント、個人学習の分野で広く使用されています。

LaTeX_OCR.torrent

シーディング 1ダウンロード中 0完了 247総ダウンロード数 429

LaTeX_OCR/
- README.md
  2.29 KB
- README.txt
  4.59 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

Open-RL推論問題データセット

4ヶ月前

LightOnOCR-mix-0126 テキスト転写データセット

5ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用

Discordで議論

日付

2年前

サイズ

905.81 MB

公開URL

github.com

タグ

OCR

small これは、テストに使用される 110 サンプルの小さなデータセットです。
full 印刷物で約 100k の完全なデータセットです。実際、サンプル数は 100k よりわずかに少ないですが、これは、LaTeX の抽象構文ツリーを使用して、レンダリングできない多くの LaTeX を排除しているためです。
synthetic_handwrite は、以下に基づく完全な手書き 100k データセットです。 full 手書きフォントを使用して合成されたの数式は、人間が紙に手書きしたものと考えることができます。上記と同じ理由で、実際のサンプル数は 100k よりわずかに少なくなります。
human_handwrite これは、より小さい手書きデータセットであり、電子画面上の人間の手書きとより一貫性があります。主にから CROHME 。 LaTeX の抽象構文ツリーを使用して検証しました。
human_handwrite_print からです human_handwrite 印刷されたデータセット、式部分、および human_handwrite 同様に、絵の部分もLaTeXを使った数式から描画されます。 LaTeX OCR データセットデータセットは、次のような複数のソースから取得されます。 https://zenodo.org/record/56198#.V2p0KTXT6eA そして https://www.isical.ac.in/~crohme/ 収集されたデータおよび自己構築されたデータ。特に複雑な数学記号や数式を処理する場合に、OCR モデルのトレーニングと評価に使用できます。学術文書のデジタル化、オンライン教育、科学研究アシスタント、個人学習の分野で広く使用されています。

LaTeX_OCR.torrent

シーディング 1ダウンロード中 0完了 247総ダウンロード数 429

LaTeX_OCR/
- README.md
  2.29 KB
- README.txt
  4.59 KB

Open-RL推論問題データセット

4ヶ月前

LightOnOCR-mix-0126 テキスト転写データセット

5ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

LaTeX OCR数式認識データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

LaTeX OCR数式認識データセット

Open-RL推論問題データセット

LightOnOCR-mix-0126 テキスト転写データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

LaTeX OCR数式認識データセット

Open-RL推論問題データセット

LightOnOCR-mix-0126 テキスト転写データセット

AIでAIを構築

HyperAI Newsletters

Open-RL推論問題データセット

LightOnOCR-mix-0126 テキスト転写データセット

Open-RL推論問題データセット

LightOnOCR-mix-0126 テキスト転写データセット