HyperAI超神経

LaTeX OCR数式認識データセット

LaTeX OCR データセットは、光学式文字認識 (OCR) の分野における複雑な数式認識問題に焦点を当てたデータセットです。 LaTeX OCR データセットには複数の構成が含まれており、それぞれに異なる特性とデータ分割が含まれています。たとえば、「フル」構成には約 100,000 のタイポグラフィ サンプルが含まれていますが、「synthetic_handwrite」構成には、タイポグラフィの公式に基づいた手書きフォントを使用して合成された 100,000 の手書きサンプルが含まれています。

このウェアハウスには 5 つのデータ セットがあります。

  1. small これは、テストに使用される 110 サンプルの小さなデータ セットです。
  2. full 印刷物で約 100k の完全なデータセットです。実際、サンプル数は 100k よりわずかに少ないですが、これは、LaTeX の抽象構文ツリーを使用して、レンダリングできない多くの LaTeX を排除しているためです。
  3. synthetic_handwrite は、以下に基づく完全な手書き 100k データ セットです。 full 手書きフォントを使用して合成された の数式は、人間が紙に手書きしたものと考えることができます。上記と同じ理由で、実際のサンプル数は 100k よりわずかに少なくなります。
  4. human_handwrite これは、より小さい手書きデータ セットであり、電子画面上の人間の手書きとより一貫性があります。主にから CROHME 。 LaTeX の抽象構文ツリーを使用して検証しました。
  5. human_handwrite_print からです human_handwrite 印刷されたデータセット、式部分、および human_handwrite 同様に、絵の部分もLaTeXを使った数式から描画されます。

LaTeX OCR データセット データセットは、次のような複数のソースから取得されます。 https://zenodo.org/record/56198#.V2p0KTXT6eA そして https://www.isical.ac.in/~crohme/ 収集されたデータおよび自己構築されたデータ。特に複雑な数学記号や数式を処理する場合に、OCR モデルのトレーニングと評価に使用できます。学術文書のデジタル化、オンライン教育、科学研究アシスタント、個人学習の分野で広く使用されています。

LaTeX_OCR.torrent
シーディング 2ダウンロード中 0ダウンロード完了 153総ダウンロード数 194
  • LaTeX_OCR/
    • README.md
      2.29 KB
    • README.txt
      4.59 KB
      • data/
        • LaTeX_OCR.zip
          905.81 MB