LaTeX OCR データセットは、光学式文字認識 (OCR) の分野における複雑な数式認識問題に焦点を当てたデータセットです。 LaTeX OCR データセットには複数の構成が含まれており、それぞれに異なる特性とデータ分割が含まれています。たとえば、「フル」構成には約 100,000 のタイポグラフィ サンプルが含まれていますが、「synthetic_handwrite」構成には、タイポグラフィの公式に基づいた手書きフォントを使用して合成された 100,000 の手書きサンプルが含まれています。
このウェアハウスには 5 つのデータ セットがあります。
small
これは、テストに使用される 110 サンプルの小さなデータ セットです。full
印刷物で約 100k の完全なデータセットです。実際、サンプル数は 100k よりわずかに少ないですが、これは、LaTeX の抽象構文ツリーを使用して、レンダリングできない多くの LaTeX を排除しているためです。synthetic_handwrite
は、以下に基づく完全な手書き 100k データ セットです。full
手書きフォントを使用して合成された の数式は、人間が紙に手書きしたものと考えることができます。上記と同じ理由で、実際のサンプル数は 100k よりわずかに少なくなります。human_handwrite
これは、より小さい手書きデータ セットであり、電子画面上の人間の手書きとより一貫性があります。主にからCROHME
。 LaTeX の抽象構文ツリーを使用して検証しました。human_handwrite_print
からですhuman_handwrite
印刷されたデータセット、式部分、およびhuman_handwrite
同様に、絵の部分もLaTeXを使った数式から描画されます。
LaTeX OCR データセット データセットは、次のような複数のソースから取得されます。 https://zenodo.org/record/56198#.V2p0KTXT6eA
そして https://www.isical.ac.in/~crohme/
収集されたデータおよび自己構築されたデータ。特に複雑な数学記号や数式を処理する場合に、OCR モデルのトレーニングと評価に使用できます。学術文書のデジタル化、オンライン教育、科学研究アシスタント、個人学習の分野で広く使用されています。
LaTeX_OCR.torrent
シーディング 2ダウンロード中 0ダウンロード完了 153総ダウンロード数 194