DocBank テキスト データセット

DocBank はテキスト データセットです。このデータ セットには、ドキュメント レイアウト分析用の、きめ細かいエントリーレベルの注釈付きドキュメント ページが 500,000 件含まれています。データセットは、arXiv.com で入手可能な \LaTeX{} ドキュメントからの弱い監視を伴う、シンプルかつ効率的なアプローチを使用して構築されています。
DocBank.torrent
シーディング 2ダウンロード中 0ダウンロード完了 329総ダウンロード数 634