ムハラフ氏手書きのアラビア語データセット

日期

2 个月前

大小

9.83 GB

发布地址

github.com

许可协议

CC BY-NC-SA 3.0

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください

Muharaf データセットは、2024 年に Mehreen Saeed らによって作成された、手書きのアラビア語認識に焦点を当てた機械学習データセットです。ムハラフ: 筆記体認識用の手書きアラビア語データセットの写本」が NeurIPS 24 に受理されました。このデータセットには、アーカイブ アラビア語の専門家によって転写された歴史的な手書きのページの 1.6k 以上の画像が含まれています。各ドキュメント画像には、そのテキスト行の空間ポリゴン座標と、基礎となるページ要素に関する情報が伴います。 Muharaf データセットは、アラビア語写本だけでなく結合テキストの認識についても、手書きテキスト認識 (HTR) 分野の技術進歩を促進するために構築されました。

このデータセットには、個人的な手紙、日記、メモ、詩、教会の記録、法的通信など、多様な書き方と幅広い種類の文書が含まれています。研究論文の中で、著者らはデータ取得プロセス、データセットの顕著な特徴と統計について説明し、これらのデータを使用して畳み込みニューラル ネットワークをトレーニングした結果の予備的なベースライン結果を提供します。

Muharaf データセットは 2 つの部分に分かれています。公開部分には 1,216 個の画像が含まれ、CC BY-NC-SA 4.0 ライセンスに基づいて配布されます。制限付き部分には 428 個の画像が含まれ、独自のライセンスに基づいて配布され、レバノン人カルロス・ユネス研究フェニックスセンターをダウンロードしてください。このデータは研究目的のみであり、再配布は許可されていません。さらに、Muharaf データセットは ScribeArabic 注釈ソフトウェアを使用して作成されており、ソフトウェアのマニュアルはユーザーがその仕組みを理解するのに役立ちます。データセット内の画像ファイルは、対応する注釈、転写、タグとともに、PAGE-XML ビューアを使用して表示できます。

スクリーンショット
Muharaf.torrent

做种 1

下载中 0

已完成 9

总下载 31

  • Muharaf/
    • README.md
      2.27 KB
    • README.txt
      4.54 KB
      • data/
        • 11492215.zip
          9.83 GB